编辑距离去重是一种字符串之间的相似度计算方法。具体来说,给定两个字符串,将A转为B所需要的删除、插入、替换等步骤的数量叫做从A到B的编辑路径。而将最短的编辑路径称为编辑距离。
例如“还没正式使用,不知道怎样,但安装的材料费确实有点高,380”与“还没使用,不知道质量如何,但安装的材料费确实贵,380”的编辑距离是9。
首先,针对重复的评论进行去重操作,也就是删除重复的评论语句。
此外,一句话中出现的重复词语,将会影响评论中的关键词在整体中出现的频率太高而对分析结果产生影响,需要压缩。
对于自动好评的评论,需要识别并自动删除。
a.若读入与上列表相同,下为空,则放下
b.若读入与上列表相同,下有,判断重复,清空下表
c.若读入与上列表相同,下有,判断不重,清空上下
d.若读入与上列表不同,字符>=2,判断重复,清空上下
e.若读入与上列表不同,下为空,判断不重,继续放上
f.若读入与上列表不同,下有,判断不重,放下
g.读完后,判断上下,若重则压缩.
分词原理
分词是指将一段汉字切分成独立的词,分词结果的准确性对后续的完起到至关重要的影响。目前分词算法主要有以下4中:字符串匹配;基于理解的算法;基于统计的算法以及基于机器学习算法。
(1)字符串匹配算法:将待分的文本串和词典中的次进行精准匹配,如果词典中的字符串出现在当前待分的文本中,则匹配成功,常用的匹配算法有正向最大匹配、逆向最大匹配、双向最大匹配和最小切分。(优缺点补充)
(2)基于理解的算法:通过模拟现实中人都对句子的理解效果进行分词。该方法需要进行句法分析,同时需要大量语言知识和信息,比较复杂。
(3)基于统计的算法:单词偶单字构成,在文本中,相邻字共同出席的次数越多,他们构成次的概率就越大,因此利用字之间的共现概率反映词的概率,统计相邻字的共现次数,计算共现概率。当共现概率改与设定的阈值,则认为可能构成词语
(4)基于机器学习的算法:利用机器学习进修模型构建,构建大量已分词文本为训练数据,利用机器学习算法进行模型训练,利用模型对文职文本进行分析。(重点)
分词之后,句子中的语气词等对于句子的特征没有贡献,需要删除。另外一些专有名词,例如在分析热水器案例中经常出现热水器等,属于无用信息,需要删除。通过自定义词库来删除一些词。