|
原贴地址:http://www.cnwebmasters.com/thread-108338-1-1.html
我觉得有价值的就是这个知识点了,将学习过程贴出来,方便和我一样的新手理解学习,大家一起进步。
一、定义
所谓隐性语义索引(lsi)指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。
比如:
(1)电脑和计算机这两个词在人们写文章时经常混用,这两个词在大量的网页中同时出现,搜索引擎就会认为这两个词是极为语义相关的。 (2)SEO和搜索引擎优化(虽然一个是英语,一个是中文)这两个词大量出现在相同的网页中,虽然搜索引擎还不能知道搜索引擎优化或SEO指的是什么,但是却可以从语义上把”SEO”,”搜索引擎优化”,”search engine optimization”,”SEM”等词紧紧的连在一起。可见潜在语义索引并不依赖于语言。
(3)如苹果和橘子这两个词,也是大量出现在相同文档中,不过紧密度低于同义词。所以搜索引擎不会认为它们是语义相关的。
二、分析
搜索引擎作弊最快的方法当属关键词堆砌,这源于信息检索中相关性算法本身的缺陷,为了对抗这种作弊方法,搜索引擎通过潜在语义索引(Latent Semantic Indexing,LSI)算法来发现这些作弊页面,LSI算法也是信息检索领域一种古老的算法,1988年由S.T. Dumais等 人提出,主要用于自然语言理解,通过统计的方法对文档的进行语义分析,发掘同义词,相关词组等等。
举个简单的例子:比方“汽车消费”这个词,通过分析大量 页面发现这个词频繁的出现在“汽车消费贷款”,“中国汽车消费网”等等这些词组中,那么机器可以认为人们的语言习惯是将“汽车消费”和“汽车消费贷款”、 “中国汽车消费网”等等联系在一起来描述一些事情。通过这样的分析发现一些由机器生成的关键词堆砌页面,因为搜索引擎认为机器生成的页面不会出现这些相关联的词组。
三、实例
例如以下的这些关键词
how to hypnotize someone without them knowing
how to hypnotize someone instantly
how to hypnotize someone to sleep
how to hypnotize someone step by step
how to hypnotize someone easily
我们拿出这些词的不同部分:
someone
people
without them knowing
instantly
to sleep
step by step
easily
我把这些不同的部分看做是“how to hypnotize someone”的LSI及其延伸。
原因分析:假设首页在“how to hypnotize someone”这个词上有首页排名,我们将上面的那些不同部分的词融入首页文章或者出现在首页页面上,会使得我们的首页在搜索:
how to hypnotize someone without them knowing
how to hypnotize someone instantly
how to hypnotize someone to sleep
how to hypnotize someone step by step
how to hypnotize someone easily
how to hypnotize people
这些词时也会有较好的排名。
区别对待:
当然,如果是首页文章,我们无需原原本本将这些词全部插入,而只需要插入不同的部分即可,如在首页正文中,我们无需严格地将“how to hypnotize someone instantly”插入文章,而只需要将不同部分的“instantly”这个词自然融合进文章即可。
如果你的首页是只有一篇文章,写文章的时侯,需要把这些LSI全部整理出来,把这些不同部分自然融合进文章中;
但如果我的首页有链接做到这些LSI关键词,那么这些LSI关键词成为这些链接的锚文本,这时可以不需要融入文章中。
|
评分
-
查看全部评分
|