微博中找出具有某种意向的用户的思…

    xiaoxiao2021-04-19  112

    思路很重要,有了思路,遇到问题就有方法解决。具体细节不做细说。具体遇到问题的时候再深究即可。 1)获取数据,可以采用爬虫或者某些软件来获取数据。数据分为两类,一类是大量的用来进行测试的数据。另外一类就是明确已知有意向的用来让机器进行学习的例子。(有意向的数据可以采用搜索关键词方法获取等) 2)得到两种数据之后,可以通过寻找相似性来判断测试数据中的用户是否具有某种意向。比如说一个用户的微博和另一个已知意向的用户具有比较高的相似度,可以大致的认为他们具有同种的意向。 3)判断相似度的方法。这里介绍一种:余弦相似性的方法。大致的思想是,比如说n维空间中有很多的向量。他们之间的夹角在某种程度上可以反映他们的相似性。夹角越小,两个向量也就越相近。 4)想要通过上面的方法判断相似性,需要将文本数据转化为向量来进行比较。具体方法有TF_IDF算法。在进行向量化之前,最好是先对文本进行下处理。比如说去掉一些无用的词语,例如,语气词,一些连接词,等。具体方法可以采用一些分词的工具包,例如中科院开发的一个名为ICTCLAS分词器,分词完成后,最好再进行一步提取文档中的特征向量的过程。方法有,卡方统计。之后再用TF-IDF来为特征向量赋权重。 5)以上完成以后就将文档量化了。然后便可用余弦来判断相似性。如果文档得到的向量维数很大,计算可能会很复杂,最好进行降维的操作。计算完成以后,相似程度高的即可作为具有相同意向的用户了。 6)具体的这些方法。可以参考下一篇大神的文章。: http://shiyanjun.cn/archives/548.html
    转载请注明原文地址: https://ju.6miu.com/read-675941.html

    最新回复(0)