第一、提取文字
由于搜索引擎蜘蛛抓取的是页面的HTML代码,里面包含了大量的HTML标签、js等无法用到排名上的内容,所以搜索引擎索引首先要做的就是把其中的HTML标签、js去掉,保留剩下的页面文字内容。
PS:以前常有人问我,为什么我网站总是没有收录?排名很差?原因就是:去掉图片去掉代码,去掉JS、CSS,你网站还留下什么?赶紧回去看看你的网站还留下什么吧。
第二、中文分词
中文分词是中文搜索引擎特有的步骤,英文单词之间会有空格作分隔,而中文词与词之间没有分隔符号,一个句子字与词都是连在一起的。中文搜索引擎必须首先分辨那几个字组成一个词,哪些字本身就是一个词。比如“健身方法”将被分词为“健身”和“方法”两个词。
PS:为什么标题要用英文状态下标点符号,而内容就可以用中文标点符号,现在知道了吧。
第三、去停止词
在页面内容中会存在很多对内容没有任何影响的词,比如"的"、"之"、"却"、"啊"之类。搜索引擎在索引时会把这些词去掉,让页面内容的主题更加突出。
PS:相信了解这个后,网络能少了一大片废话了,但是不要过度的去除这些,最重要是通顺。通顺比什么都要,这也是用户体验价值。
第四、去重(为什么伪原创弊大于利)
搜索引擎为了减少搜索结果中出现的重复内容会选取页面内容中出现频率最高的词,通常会选出10个左右关于页面的关键词来计算页面的“指纹”。
PS:坚持原创,做个有节操的人SEO。
第五、索引
经过以上步骤之后,搜索引擎就可以提炼出可以代表一个页面内容的一些关键词,同时记录这些词在页面上的出现频率、出现次数、格式、位置等信息。
PS:以前人问我,为什么我文章这么好,怎么会没有排名呢?页面没有被收录索引,哪来的排名?
第六、链接关系计算
当页面中存在链接时,搜索引擎会计算这些链接都指向哪些页面,每个页面都有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。
PS:我再次强调:不会做锚文本的,千万要注意,做当然有好处;不会做,那是百害无一益。
第七、页面质量判断
在这个阶段,搜索引擎会对页面内容质量、链接质量等作出判断,比如百度的绿萝、石榴算法。
虽然天天强调这些,估计能记住的没有几个,这也就是为什么做SEO这么久,排名依然上不去。因为连最根本的搜索引擎是怎么工作的原理都不清楚,如何做得了好的排名?当然,好的排名不是这么容易就做出来的,每一步的规则与设计都是带有逻辑性的。想要快速排名上首页,想要批量排名上首页,可以加我QQ群,遇到不懂的问问总是没有坏处的。