一、站点结构
1、逻辑清晰的链接层次结构
A、以首页为根节点的树状连通图
B、避免过于扁平化的结构
C、避免孤岛链接
首页-频道-索引-内容页(根据众多实际案例情况来看,约定随心觉得就这种结构并非合理)
注意: 不利于spider抓取的情况
A、通过query(搜索)检索得到的内页。
B、需要相应设置才能访问内页的情况
2、PC/移动适配
1)建立适配:PC与移动端URL,有规则级的对应关系,且相互关联
2)不建议做法
A、单一域名下多种配置方式
B、把移动站作为PC下一级目录,如: www.a.com/m/
3、数据主动提交
新产出链接与发生变化的资源链接应及时提交(避免死链)
4、避免目录被黑或售卖
二、页面结构
1、不建议使用js加载页面内容
1)内容放置js中,影响索引
2)链接和锚文本的链接
注: 1)索引页js渲染点击事件才发生链接;2)显示一部分,点击加载全文/下拉
2、移动友好性标准
3、索引页友好性
1)排版布局:
A、按发布时间顺序、忌时间错乱(置顶内容可模块化处理)
B、不要漏链(孤岛)
2)内容质量
A、只包括同主题内容页
B、保持与内容同步更新
C、避免交叉泛滥索引页
4、索引页翻页友好性(PC端)
1)1 2 3 顺序排序
如果可能,尽量列举全部翻页,至少保留最近一段时间的所有内容
2)不友好做法
A、仅有上一页、下一页
B、URL以页数控制,不要用URL起始数量
C、翻页后链URL与翻页页码关联
5、索引页翻页友好性(移动端)
A、采用PC端翻页建议
B、采用下拉动作触发加载,下拉次数上限为3次
C、针对百度UA特殊处理,返回更完整的翻页内容
注意: 不友好做法
无限下拉、点击加载更多
三、抓取限制
1、避免预期以外的封禁
1)UA/IP封禁
A、建站模板中包含的封禁信息,被迁移
B、服务器自动封禁策略
C、网站所在空间服务商封禁IP
2、建议
服务器设置排查,确保robots、UA、IP设置是否符合预期
3、死链接反馈
对于百度蜘蛛的抓取,返回404等明确状态码
- 我的微信
- 这是我的微信扫一扫
- 我的微信公众号
- 我的微信公众号扫一扫