openvinotoolkit · apaniukov · Apr 25, 2023 · Apr 28, 2023 · May 2, 2023 · May 10, 2023
@@ -80,8 +80,9 @@ if(TBB_FOUND)
   target_link_libraries(${TARGET_NAME} PRIVATE TBB::tbb TBB::tbbmalloc)
 endif()
 
-if(sentence_piece IN_LIST CUSTOM_OPERATIONS)
-  add_subdirectory(sentence_piece)
+# Left sentence_piece for backward compatibility
+if(tokenizer IN_LIST CUSTOM_OPERATIONS)
+  add_subdirectory(tokenizer)
 endif()
 
 target_link_libraries(${TARGET_NAME} PRIVATE openvino::runtime)

@@ -52,14 +52,38 @@
 #    define S_CONV_EXT
 #endif
 
-#ifdef sentence_piece
-#    include "sentence_piece/sentence_piece.hpp"
-#    define SENTENSE_PIECE_EXT                                                                                              \
+#ifdef tokenizer
+#    include "tokenizer/tokenizer.hpp"
+#    define TOKENIZER_EXT                                                                                              \
+            std::make_shared<ov::OpExtension<StringTensorPack>>(),                                                          \
+            std::make_shared<ov::OpExtension<RaggedTensorPack>>(),                                                          \
+            std::make_shared<ov::OpExtension<StringTensorUnpack>>(),                                                        \
+            std::make_shared<ov::OpExtension<CaseFold>>(),                                                                  \
+            std::make_shared<ov::frontend::ConversionExtension>("CaseFoldUTF8", translate_case_fold_utf8),                  \
+            std::make_shared<ov::OpExtension<NormalizeUnicode>>(),                                                          \
+            std::make_shared<ov::frontend::ConversionExtension>("NormalizeUTF8", translate_normalize_utf8),                 \
+            std::make_shared<ov::OpExtension<RegexNormalization>>(),                                                        \
+            std::make_shared<ov::frontend::ConversionExtension>("StaticRegexReplace", translate_static_regex_replace),      \
+            std::make_shared<ov::OpExtension<RegexSplit>>(),                                                                \
+            std::make_shared<ov::frontend::ConversionExtension>("RegexSplitWithOffsets", translate_regex_split_with_offsets), \
+            std::make_shared<ov::OpExtension<WordpieceTokenizer>>(),                                                        \
+            std::make_shared<ov::frontend::ConversionExtension>("WordpieceTokenizeWithOffsets", translate_wordpiece_tokenize_with_offsets), \
+            std::make_shared<ov::OpExtension<BPETokenizer>>(),                                                        \
+            std::make_shared<ov::OpExtension<BytesToChars>>(),                                                        \
+            std::make_shared<ov::frontend::ConversionExtension>("LookupTableFindV2", translate_lookup_table_find_v2),       \
+            std::make_shared<ov::OpExtension<CombineSegments>>(),                                                           \
+            std::make_shared<ov::OpExtension<RaggedToDense>>(),                                                             \
+            std::make_shared<ov::OpExtension<VocabDecoder>>(),                                                             \
+            std::make_shared<ov::OpExtension<CharsToBytes>>(),                                                             \
+            std::make_shared<ov::frontend::ConversionExtension>("Reshape", translate_reshape),                              \
+            std::make_shared<ov::frontend::ConversionExtension>("Const", translate_const),                                  \
             std::make_shared<ov::OpExtension<TemplateExtension::SentencepieceTokenizer>>(),                                 \
+            std::make_shared<ov::OpExtension<TemplateExtension::SentencepieceDetokenizer>>(),                                 \
+            std::make_shared<ov::OpExtension<TemplateExtension::SentencepieceStreamDetokenizer>>(),                                 \
             std::make_shared<ov::frontend::ConversionExtension>("SentencepieceOp", translate_sentencepiece_op),             \
             std::make_shared<ov::frontend::ConversionExtension>("RaggedTensorToSparse", translate_sentencepiece_tokenizer),
 #else
-#    define SENTENSE_PIECE_EXT
+#    define TOKENIZER_EXT
 #endif
 
 OPENVINO_CREATE_EXTENSIONS(std::vector<ov::Extension::Ptr>(
@@ -69,5 +93,5 @@ OPENVINO_CREATE_EXTENSIONS(std::vector<ov::Extension::Ptr>(
         S_CONV_TRANSPOSE_EXT
         S_CONV_EXT
         COMPLEX_MUL_EXT
-        SENTENSE_PIECE_EXT
+        TOKENIZER_EXT
     }));
@@ -20,6 +20,12 @@ FetchContent_Declare(
   URL_HASH SHA256=a7c105aca0131b4a899155a6c44ea9728e63514edaa8d71fa92e7a5de53b6ca0
 )
 
+FetchContent_Declare(
+  fast_tokenizer
+  URL      https://bj.bcebos.com/paddlenlp/fast_tokenizer/fast_tokenizer-linux-x64-1.0.2.tgz
+  URL_HASH SHA256=843a8299b55ef2e06ea50ba0d4ab4cb05b9e4cdb7cb8e29f3d55c494a1b7aecc
+)
+
 if(CMAKE_COMPILER_IS_GNUCXX OR CMAKE_CXX_COMPILER_ID MATCHES "^(Apple)?Clang$")
     set(cxx_flags "-Wno-undef")
 elseif(CMAKE_CXX_COMPILER_ID STREQUAL "MSVC")
@@ -36,6 +42,9 @@ endif()
 set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} ${cxx_flags}")
 
 FetchContent_MakeAvailable(sentencepiece)
+FetchContent_MakeAvailable(fast_tokenizer)
+
+include("${fast_tokenizer_SOURCE_DIR}/FastTokenizer.cmake")
 
 # set include dirs for specific source files
 target_include_directories(${TARGET_NAME} PRIVATE
@@ -44,13 +53,15 @@ target_include_directories(${TARGET_NAME} PRIVATE
   "${sentencepiece_SOURCE_DIR}/third_party/protobuf-lite"
   "${sentencepiece_SOURCE_DIR}"
   "${sentencepiece_SOURCE_DIR}"
-  "${sentencepiece_BINARY_DIR}")
+  "${sentencepiece_BINARY_DIR}"
+  "${FAST_TOKENIZER_INCS}")
+
 
 if(CMAKE_CL_64)
     target_compile_definitions(sentencepiece-static PRIVATE _CRT_SECURE_NO_WARNINGS _SCL_SECURE_NO_WARNINGS)
 endif()
 
-target_link_libraries(${TARGET_NAME} PRIVATE sentencepiece-static)
+target_link_libraries(${TARGET_NAME} PRIVATE sentencepiece-static ${FAST_TOKENIZER_LIBS})
 
 # string_view is used from cxx17
 string(REPLACE " " ";" cxx_flags "${cxx_flags}")