Skip to content

Latest commit

 

History

History
31 lines (27 loc) · 851 Bytes

File metadata and controls

31 lines (27 loc) · 851 Bytes

RoadMap

中文分词

Reference

漫话中文自动分词和语义识别(上):中文分词算法 | Matrix67

  • 中文分词的难点
    • 交集型歧义
    • 组合型歧义
    • 未登录词
      • 人名
      • 地名
      • 机构名
      • 缩略语
      • 网络用语
  • 中文分词的历史
    • 规则表/词典——前缀树
      • 最长匹配
      • 最少词数
      • 惩罚方法
      • 基于有向无环图的最大概率组合
      • 基于语言模型的最大概率组合
    • 字标注
      • HMM
      • CRF

    jieba 分词就同时结合了两者:有向图的最大概率 + HMM 模型

基于 AC 自动机的中文分词

【中文分词系列】 1. 基于AC自动机的快速分词 - 科学空间|Scientific Spaces