1998年人民日报语料库,词的最长,最短匹配提取问题,

    xiaoxiao2021-03-25  159

    由于语料中包括

     

    [中央/n 人民/n 广播/vn 电台/n]nt

    此类词问题,可以选择最长词提取,也可以选择最短词提取

     

     

     

    # -*- coding: utf-8 -*- import codecs wordfile=codecs.open("199801.txt",encoding="gbk") curpusfile=codecs.open("curpus.txt",'w', 'utf-8') def max_word():#最长匹配 提取[中央/n 人民/n 广播/vn 电台/n]nt 样式的词,最长词,如 :中央人民广播电台/n for sentence in wordfile.readlines(): words= sentence.strip().split(" ") b_flag = 0 b_word="" for word in words: #提取[中央/n 人民/n 广播/vn 电台/n]nt 样式的词,最长词,如 :中央人民广播电台/n if word.strip()!="": b_tag="" if word.startswith("["): b_flag=1 word=word[1:] eli
    转载请注明原文地址: https://ju.6miu.com/read-4923.html

    最新回复(0)