咨询,就免费赠送域名与服务器,咨询热线:18870219079当前位置: 主页 > 新闻动态 > 常见问题 >
推荐内容
联系我们
电话咨询:18870219079
E-mail:1216005977@qq.com
地址: 光大发展大厦南栋29楼(候家塘南车站旁)

AG环亚解说TF-IDF算法

作者/整理:AG环亚 来源:互联网 2020-02-14

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效.

1、TF-IDF由两个部分组成

TF就是词频,比如一个词在某个文章中出现的次数 IDF是逆文档频率"

众所周知,如果一个词在某个文章中出现的次数比较多,说明这个词比较贴合这个文章的所想表达的意图,当然是在去除掉一些没用的词语的情况下,比如"的","和"之类的,

然而要体现出文章的关键词的"关键"二字,只有TF是远远不够的,这时候IDF就需要计算出来以计算所谓关键词中真正的能被称为关键词的词语

IDF是逆文档频率 是指量化的表示一个词在一些文档中出现的次数,试想在一堆文档中,一个词出现在少量的文档中,那些这个词就很可能是那些文档的关键词,所以结合TF和IDF就可以用来衡量得出各文档的关键词

下面说一下算法的详解

step1: 计算TF 由于每个文章的字数不一样,所以不能单纯的使用词语的出现频率进行衡量TF

TF(a_word) = a_word的出现次数/文章的全部词

step2: 计算IDF

IDF(b_word) = log(文档总数/(b_word出现的文档数+1))

这边+1是由于如果不巧某个词在所有文档都不出现就会出现分母是0的情况,所以为了应对这个情况,作出+1的细节要求

step3: 需要用TF和IDF的乘积来衡量一个词的重要性

TF-IDF = TF*IDF

最后用来衡量的是TF*IDF计算得到的权重,说明某些词对文章的重要性