正在阅读:

百度中文分词切词技术算法对SEO有影响吗?

1,151

百度中文分词切词技术算法对SEO有影响吗?

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。

中文分词对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重 要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否常常直接影响到对搜索结果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响页面的返回结果。

现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。一般常用的几种机械分词方法如下:

1)正向最大匹配法(由左到右的方向)

2)逆向最大匹配法(由右到左的方向)

3)最少切分(使每一句中切出的词数最小)

4)双向最大匹配法(进行由左到右、由右到左两次扫描)

很多时候一个网站的流量更多的来源于长尾词流量,中文分词算法对SEO具有指导意义。可以通过中文分词的研究让我们获得更多的百度长 尾流量。

百度分词是根据内容中,第一次出现关键词相关词为标准来分的。例如“大连网站优化”这个词,如果你的正文中第一个出现的是“大连” 这个词,那么你的页面上的关键词就会被拆分成“大连”和“网站优化”两个词,标题中一定要包含关键词,但不一定要完全匹配,但内容中出现的关键词是要跟百度分词完全匹配的,在完全匹配中又会根据文件URL路径的深度来进行排序,在关键词都完全匹配的情况下,比如说目录比文件有优先权,根目录下的文件要比二级目录下的文件有优先权,完全匹配的会排在前面,然后再是部分匹配的。

在关键词没有完全匹配的情况下,如果有分词,比如说:“大连SEO”这个关键词,有一个网页里第一次出现的关键词是“大连”,并且有适当的关键词密度,但是这个网页中却没有“SEO”这个关键词,而另一个网页里第一次出现的关键词是“SEO”,那么这个网页的关键词就会被拆分成“大连”和“SEO” 两个词,虽然第二个网页里包含有“大连”和“SEO” 但是第一个网页还是会排在第二个网页的前面,这说明关键词的前面部分是最重要的。关键词第一部分出现的频率是排名的关键,比如说“大连网站优化”,如果两个网页都没有完全匹配,都是含有两个分词,那么“大连”这个分词密度高的网页将会排在前面。如果完全匹配,但是关键词第一出现是在页面内容的最后面部分,那么这个网页的排名将比前面这些页面还要低。

百度根据第一次出现的相关关键词分切词,如果第一次出现的相关关键词是关键词的尾部,那么就从后面开始切,如果是前面部分就从前面开始切,也就是根据网页内容的顺序和反序进行分词,顺序的时候就是以关键词前半部分为起点,反序的时候就是以关键词的后半部分为起点。例如:“大连姜文SEO ”这个关键词,如果你的网页中第一次出现的关键词是“大连”,那么你这个页面的关键词会被拆分成”大连” 和“姜文SEO”两个词。可以根据百度的分切词原理,自己来选择比较好做的关键词头部(也就是调整你网页内容中第一次出现的关键词)。也就是进行人为分词切词,百度会进行从前往后判断,也会从后往前面切。

如果在关键词没有完全匹配的情况下,并且关键词出现得不完整,比如说:大连SEO这个词,网页的内容包含的关键词中如果没有“大连”这个词, 那么分切词就会从“SEO”开始,但是这样的网页都会排在比较靠后了,因为你关键词的前部分都没有包含。

缺词的情况下下,如果与不缺词的网页进行比较,那还是根据分切词前部分的密度进行排序,也就是说按照切词的顺序,如果切出来的词,前部分的密度比后部分的密度比例大是关键,例如一个网页中前部分与后部分关键词的比例是1:2。另外一个网页的比例是1:6。那么当然前面的那个网页排名要靠前。同样在缺词的情况下,切出来前词短的排名有优势。中文分词工具可以自行去百度搜索,这里就不详细说了。

留下脚印,证明你来过。

*

*

流汗坏笑撇嘴大兵流泪发呆抠鼻吓到偷笑得意呲牙亲亲疑问调皮可爱白眼难过愤怒惊讶鼓掌