漫话中文自动分词和语义识别(上):中文分词算法 | Matrix67
- 中文分词的难点
- 交集型歧义
- 组合型歧义
- 未登录词
- 人名
- 地名
- 机构名
- 缩略语
- 网络用语
- 中文分词的历史
- 规则表/词典——前缀树
- 最长匹配
- 最少词数
- 惩罚方法
- 基于有向无环图的最大概率组合
- 基于语言模型的最大概率组合
- 字标注
- HMM
- CRF
jieba 分词就同时结合了两者:有向图的最大概率 + HMM 模型
- 规则表/词典——前缀树
【中文分词系列】 1. 基于AC自动机的快速分词 - 科学空间|Scientific Spaces