搜索引擎为用户展现的每一条搜索结果,都对应着互联网上的一个页面。每一条搜索结果从产生到被搜索引擎展现给用户,都需要经过四个过程:抓取、过滤、建立索引和输出结果。
1、关于抓取
抓取是基础,那么是什么因素影响着百度蜘蛛的抓取频率和数量呢?百度给出了官方答复:
(1)网站更新频率:更新快多来,更新慢少来,直接影响Baiduspider的来访频率
(2)网站更新质量:更新频率提高了,仅仅是吸引了Baiduspier的注意,Baiduspider对质量是有严格要求的,如果网站每天更新出的大量内容都被Baiduspider判定为低质页面,依然没有意义。
(3)连通度:网站应该安全稳定、对Baiduspider保持畅通,经常给Baiduspider吃闭门羹可不是好事情
(4)站点评价:百度搜索引擎对每个站点都会有一个评价,且这个评价会根据站点情况不断变化,是百度搜索引擎对站点的一个基础打分(绝非外界所说的百度权重),是百度内部一个非常机密的数据。站点评级从不独立使用,会配合其它因子和阈值一起共同影响对网站的抓取和排序。
2、关于过滤
百度会自己过滤掉一些垃圾页面,哪些是垃圾页面?下面是官方答复:
(1)重复内容的网页:互联网上已有的内容,百度必然没有必要再收录。
(2)主体内容空短的网页
【1】有些内容使用了百度spider无法解析的技术,如JS、AJAX等,虽然用户访问能看到丰富的内容,依然会被搜索引擎抛弃
【2】加载速度过慢的网页,也有可能被当作空短页面处理,注意广告加载时间算在网页整体加载时间内。
【3】很多主体不突出的网页即使被抓取回来也会在这个环节被抛弃。
(3)部分作弊网页
3、关于建库
百度抓回来的页面,会根据页面的质量把这些页面分别放到优质库、普通库、低质库中去。那么百度如何判断一个页面的质量的呢?以下是官方的答复:
(1)对用户的价值:
【1】内容独特,百度搜索引擎喜欢unique的内容
【2】主体突出,切不要出现网页主体内容不突出而被搜索引擎误判为空短页面不抓取
【3】内容丰富
【4】广告适当
(2)链接重要程度
【1】目录层级——浅层优先
【2】链接在站内的受欢迎程度,内链
4、关于输出结果
最后,百度会根据用户搜索的关键词,第一是把相关的网页从索引库中提取出来,第二是把提取出来的网页按照不同维度的得分进行综合排序。“不同维度”包括:
(1)相关性:网页内容与用户检索需求的匹配程度,比如网页包含的用户检查关键词的个数,以及这些关键词出现的位置;外部网页指向该页面所用的锚文本等
(2)权威性:用户喜欢有一定权威性网站提供的内容,相应的,百度搜索引擎也更相信优质权威站点提供的内容。
(3)时效性:时效性结果指的是新出现的网页,且网页内承载了新鲜的内容。目前时效性结果在搜索引擎中日趋重要。
(4)重要性:网页内容与用户检查需求匹配的重要程度或受欢迎程度
(5)丰富度:丰富度看似简单却是一个覆盖范围非常广的命题。可以理解为网页内容丰富,可以完全满足用户需求;不仅可以满足用户单一需求,还可以满足用户的延展需求。
(6)受欢迎程度:指该网页是不是受欢迎。
- 我的微信
- 这是我的微信扫一扫
- 我的微信公众号
- 我的微信公众号扫一扫