1. 中文
thulac:THULAC:一个高效的中文词法分析工具包
下载:pip install thulac
简单使用:
import thulac
seg = thulac.thulac()
text = seg.cut(
'我爱自然语言处理')
# [[
'我',
'r'], [
'爱',
'v'], [
'自然',
'n'], [
'语言',
'n'], [
'处理',
'v']]
text = seg.cut(
'我爱自然语言处理',
text=True)
# 我_r 爱_v 自然_n 语言_n 处理_v
这里一份通用标记集:
n
/名词 np/人名 ns
/地名 ni/机构名 nz/其它专名
m
/数词 q/量词 mq
/数量词 t/时间词 f
/方位词 s/处所词
v
/动词 a/形容词 d
/副词 h/前接成分 k
/后接成分 i/习语
j
/简称 r/代词 c
/连词 p/介词 u
/助词 y/语气助词
e
/叹词 o/拟声词 g
/语素 w/标点 x/其它
转载请注明原文地址: https://ju.6miu.com/read-23914.html