Skip to content

Commit

Permalink
Added support for Bulgarian
Browse files Browse the repository at this point in the history
Formatting
  • Loading branch information
watzon committed Jul 9, 2019
1 parent 012f24d commit 0ded76f
Show file tree
Hide file tree
Showing 3 changed files with 18 additions and 4 deletions.
6 changes: 3 additions & 3 deletions src/cadmium/sentiment.cr
Original file line number Diff line number Diff line change
Expand Up @@ -28,9 +28,9 @@ module Cadmium
# Set the sentiment data. Format should look like:
#
# ```
# convince 1
# cover-up -3
# cramp -1
# convince 1
# cover - up -3
# cramp -1
# ```
#
# Where higher numbers are more positive, lower
Expand Down
3 changes: 2 additions & 1 deletion src/cadmium/tokenizer/pragmatic/languages.cr
Original file line number Diff line number Diff line change
@@ -1,6 +1,7 @@
require "./languages/common"

require "./languages/english"
require "./languages/bulgarian"
require "./languages/deutsch"

module Cadmium
Expand All @@ -9,7 +10,7 @@ module Cadmium
@@language_codes = {
en: English,
# ar: Arabic,
# bg: Bulgarian,
bg: Bulgarian,
# ca: Catalan,
# cs: Czech,
# da: Danish,
Expand Down
13 changes: 13 additions & 0 deletions src/cadmium/tokenizer/pragmatic/languages/bulgarian.cr
Original file line number Diff line number Diff line change
@@ -0,0 +1,13 @@
require "./common"

module Cadmium
class PragmaticTokenizer < Tokenizer
module Languages
class Bulgarian < Languages::Common
ABBREVIATIONS = Set.new(%w[акад ал б.р б.ред бел.а бел.пр бр бул в вж вкл вм вр г ген гр дж дм доц др ем заб зам инж к.с кв кв.м кг км кор куб куб.м л лв м м.г мин млн млрд мм н.с напр пл полк проф р рис с св сек см сп срв ст стр т т.г т.е т.н т.нар табл тел у ул фиг ха хил ч чл щ.д]).freeze
STOP_WORDS = Set.new(%w[а автентичен аз ако ала бе без беше би бивш бивша бившо бил била били било благодаря близо бъдат бъде бяха в вас ваш ваша вероятно вече взема ви вие винаги внимава време все всеки всички всичко всяка във въпреки върху г г. ги главен главна главно глас го година години годишен д да дали два двама двамата две двете ден днес дни до добра добре добро добър докато докога дори досега доста друг друга други е евтин едва един една еднаква еднакви еднакъв едно екип ето живот за забавям зад заедно заради засега заспал затова защо защото и из или им има имат иска й каза как каква какво както какъв като кога когато което които кой който колко която къде където към лесен лесно ли лош м май малко ме между мек мен месец ми много мнозина мога могат може мокър моля момента му н на над назад най направи напред например нас не него нещо нея ни ние никой нито нищо но нов нова нови новина някои някой няколко няма обаче около освен особено от отгоре отново още пак по повече повечето под поне поради после почти прави пред преди през при пък първата първи първо пъти равен равна с са сам само се сега си син скоро след следващ сме смях според сред срещу сте съм със също т т.н. тази така такива такъв там твой те тези ти то това тогава този той толкова точно три трябва тук тъй тя тях у утре харесва хиляди ч часа че често чрез ще щом юмрук я як]).freeze
CONTRACTIONS = {} of String => String
end
end
end
end

0 comments on commit 0ded76f

Please sign in to comment.