织梦DedeCMS站点robots.txt文件详细写法以及优化。robots的设置也是网站的seo基础优化的一部分。这些细节是必须要做到位的。
Robots是什么
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
更多robots.txt协议信息参考:www.robotstxt.org
你可以看看百度robots.txt协议:https://www.baidu.com/robots.txt
Robots的使用
1、robots.txt全部小写。
2、robots.txt文件应该放置在网站根目录下。
织梦cms系统的robots.txt
DedeCMS本身自带有一个robots.txt文件,但是里面的设置很简单,并不能完全满足网站的优化要求,尤其是对于使用伪静态的网站来说,robots.txt文件的优化,要怎样做才行呢?
下面是我的一点想法,适用于伪静态的DedeCMS网站。
User-agent: *
Disallow: /dede 织梦管理后台目录,需要改名,具体设置在下面详细说明
Disallow: /include 程序核心文件目录
Disallow: /member 会员管理目录,有些文件可以开放
Disallow: /plus 插件及辅助功能目录
Disallow: /templets 织梦模板文件存放目录
Disallow: /data 系统缓存或其它可写入数据存放目录
Disallow: /uploads 上传下载文件保存目录,不想搜索引擎引用图片的话,禁止
Disallow: /images 系统默认模板图片存放目录
Disallow: /index.php 网站默认首页,静态化的话,最好禁止
Disallow: /404.html 404错误页面
Allow: /plus/search.php 开放禁止目录里的具体文件
下面着重讲下后台管理目录和栏目页的设置:
1、dede后台管理目录,为了网站安全考虑需要改名。然而改名之后,大家不免疑惑:改了名,应该在robots.txt文件里怎么设置禁止搜索引擎抓取呢?如果直接禁止抓取,就泄露了后台目录,等于改名无效。我们可以通过下面的设置解决这个问题,如我们设置后台目录为dedecms:
在robots.txt文件里面加上“Disallow: /d*ms”这句就可以了。
这样我们就能即禁止了搜索引擎的抓取,又不会泄露了后台目录名称。
2、栏目页。有些人会注意到,如果网站不做伪静态优化的话,栏目分页后会有两个链接指向栏目首页,如*/web/和*/web/list_1_1.html,为了网站优化,建议先将栏目分页优化以下(具体做法大家可以在网上找),把首页和第一页的链接改为*/web/的形式,然后在robots.txt文件里做以下设置:
在robots.txt文件里面加上“Disallow: /*1.html$“这句。
以上就是DEDECMS的robots.txt文件的设置,大家可以根据自己网站的情况具体设置。
提示:
网站中如果存在死链接的话,我们也可以直接使用robots.txt来屏蔽抓取。如,Disallow: http://www.xxx.com/1.html (死链接)。
附带一个robots.txt版本:
User-agent: *
Disallow: /plus
Disallow: /l*in
Disallow: /include
Disallow: /templets
Disallow: /data
Disallow: /images
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /plus/view.php
Disallow: /index.php
Disallow: /404.html
Allow: /plus/search.php
Sitemap: http://yourdomain.com/sitemap.xml
Sitemap: http://yourdomain.com/sitemap.html
# robots.txt for allen by 18.04.07
注意事项:
1.为安全起见,最好按官方说明设置好网站目录权限;
2.后台目录改后的名称开头字母和结尾字母不要和其他目录有相同之处;
3.设置完成后最好用百度站长工具测试一下robots.txt文件设置是否有效。
- 我的微信
- 这是我的微信扫一扫
- 我的微信公众号
- 我的微信公众号扫一扫