TF-IDF是一种数值综合统计度量,用来评估单词与文档集合中的文档相关程度。由TF和IDF两个部分共同组成,其中TF指的是词频,也就是某个词汇在整篇文档中出现的频率;后者IDF指的是逆文档频率,也就是出现相同词汇文档的值的对数,数值越接近于0,说明这个词汇越常见,在很多文档中都存在。
TF-IDF是当今最流行的术语加权方案之一,在信息检索、文本挖掘和用户建模的搜索中经常用作加权因子,在数据库中经常被用作基于文本检索的内容推荐系统。谷歌搜索引擎工作机制也一样,都是根据搜索用户提供的某个关键词或者句子在索引数据库中查找相关的资料,经过排名算法的计算,给出对应的SERP结果。所以正确理解TF-IDF的算法和作用对于有效开展谷歌SEO工作有着重要意义。
当然,谷歌搜索引擎不可能低级到只使用最基础版本的TF-IDF算法,在算法不断迭代更新之后,已有更复杂更全面的基于TF-IDF算法思想基础的加权方案的变体,可以对文档的相关性进行评分和排名,成功地应用于各种内容主题和相关信息检索分类领域。
(1)TF词频。TF简单点讲就是某个关键词在页面或者文章中出现的频率。假设写了一篇名为“How to maintain the coffee bean packing machine”(如何维护咖啡豆包装机)的文章,假定关键词为“coffee bean packing machine”,整篇文章的词汇总量为1500个单词,而“coffee bean packing machine”一共重复出现了6次,那么该关键词的TF为6/1500=0.004。
那么词频是高一点好还是低一点好?单从理论上来说是高一点好,因为TF的数值高,代表的是该关键词在整篇文章中出现的次数较多,和该篇文章的主体核心思想关联较为紧密。但这是一个相比较的状态,必须设定一个前提就是该篇文章没有刻意的填充堆砌关键词,以很自然的状态进行文章的撰写。
(2)IDF(逆向文档频率 )。IDF算法要稍微复杂一些,所得出的值越大说明含有某关键词的文档在总文档中出现的频率越小,也就是说这篇文章或者页面更有可能获得好的SERP排名结果。