前段时间site本站,发现有很多重复内容,这无论是对用户体检还是搜索引擎都是极为不友好的,所以有必要对WordPress robots.txt进行优化,来实现减少重复内容的目的.搜索了下其他网友的robots.txt设置,发现都不是很完美,还是会有很多重复内容,所以自己花了些时间又优化了一下.基本上不会有重复内容了.
开始之前先帮朋友插播个广告,你可以假装没看见:)
QQ表情酷:我们只提供精品QQ表情,所有表情都是经过精心挑选,拒绝任何制作粗糙的QQ表情
好了,广告播放完毕,来看看本站的robots.txt设置:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-
Disallow: /?s=
Disallow: /?tag=
Disallow: /?feed=
Disallow: /?*cpage=
Disallow: /?*page=1$
Disallow: /?*replytocom=
Disallow: /?attachment_id=
Sitemap: http://www.boxui.com/sitemap.xml
Sitemap: http://www.boxui.com/sitemap.xml.gz
robots.txt写法我就不在这里啰嗦了,你可以自己去搜索一下相关文章,我着重解释一下为什么要这么设置.
1:/cgi-bin,wp-,禁用这2个目录主要从网站安全着想,就不多加解释了.
2:/?s=,禁用站内搜索关键字
3:/?tag=,禁用收录标签
4:/?*cpage=,禁用收录文章评论页面,比如你的一篇文章总共有2页评论的时候,会有类似/?p=1&cpage=1和/?p=1&cpage=2的页面,实际上我们只是想让搜索引擎收录文章而已,所以这里要禁用.
5:/?*page=1$,如果你的文章分成2页显示,那么就会有类似/?1&page=1和/?1&page=2的页面出现,实现上/?1&page=1和/?p=1是同一个页面来的,都是指的文章的第一个页面.所以/?1&page=1必须禁用.
6:/?*replytocom=,文章评论相关的页面,如果不禁用,会出现/?p=1194#comment-1,/?p=1194#comment-2…等一序列链接,实际上都是指向同一个页面,只是自动定位到文章评论的不同位置而成已.
7:/?attachment_id=,这个是禁用收录附件,比较简单.
8:如果你网站有sitemap,那么就加上后面这2行吧.
试试看
每个人的写法都不一样,都不知道怎么做了~~!
BAIDU蜘蛛 就是喜欢这个 想办法引它过来就OK了
这个是专门针对BAIDU蜘蛛的 呵呵
为什么啊 这样效果会更好的
昨天发了!!今天蜘蛛来了好多次啊
加这个和蜘蛛来不来没关系,蜘蛛来了最先访问的是你的robots文件,它要不来访问,你加再多都没有。
你好~~我想这样写可不可以啊~BAIDU地图和GG地图
User-agent: *
Disallow:
Sitemap:http://www.aifengx.com/sitemap_baidu.xml
Sitemap:http://www.aifengx.com/sitemap.html
Sitemap:http://www.aifengx.com/sitemap.xml
百度sitemap不需要放进robots
现在不知道多久才能过观察期~~现在15天左右了~~~~~
想请问兄弟~~不知道BAIDU的观察期是多久啊~~我很苯
这个就不知道了。。。多做些优质外链可能可以加速收录。具体你可以去找些SEO的资料看看。
BAIDU收录速度太慢了~~~他们有的20天了都没有收录一篇文章
我的15天1篇文章也没有收录
坚持原创,有规律地发布文章,过了百度的观察期就会好起来的。
我也决得不可信~~~
就是=因为最近BAIDU不收录!所以排名一直没有变~~~
这就是Google和百度的区别,Google是先收录,然后才慢慢来对一个网站做出评价,而百度则相反。
最近在网上看了很多关于WOPRESS的介绍,里面有说到BAIDU不喜欢收录wordpress
不知道是不是真的@@而且还说到,BAIDU不会给WP一个好的排名
纯属放屁,本站现在来自百度的流量是Google的2倍。
不好意思啊~~最近由于蜘蛛不来爬行
也不收录~~好麻烦啊~~而且我还天天原创
也不收录!!烦得很啊
这个没别的办法,除了等待还是等待。
因为之前嘛~没有搞robots.txt这个文件
BAIDU蜘蛛来爬行的时候出现了404
你可以在robots让蜘蛛不收录你的出现404的页面就行。比如你出现404页面的网址是www.a.com/?p=1
那么你可以在robots里设置:Disallow: /?p=1
去搜索一下相关的资料吧。我发现无论我怎么解释你都会有新的问题。
这样的话~~是不是可以避免蜘蛛 爬行出现404啊
404和sitemap没关系的。。。404是你目标网页不存在导致的。
完了~~刚刚测试~~居然不能抓取~~不知道那里出问题了
不能抓取总会有提示吧?确定你的robot文件路径没错?
User-agent: *
Disallow: /aifengx.com/cgi-bin
Disallow: /aifengx.com/wp-
Allow:/wp-content/uploads/
Disallow: /?s=
Disallow: /?tag=
Disallow: /?feed=
Disallow: /?*cpage=
Disallow: /?*page=1$
Disallow: /?*replytocom=
Disallow: /?attachment_id=
没错
是不是要修改啊
差点忘记了
还有一点/public_html/aifengx.com/下面安装WP
谢谢你~~我学会了~非常感谢你的的指导!!非常感谢
那这个如何制作啊~~朋友
不好意思啊~~因为小弟不懂这些
这个你去搜索一下相关的教程吧。我是用XML_Sitemap这个插件生成的。
http://www.boxui.com/sitemap.xml.gz 这个是什么啊!!朋友
这个和sitemap.xml是一样的,只是经过gzip压缩而已。节省带宽和加快读取速度。
那就用xml sitmap!
跟你一样的地图格式
http://www.aifengx.com/sitemap.html
http://www.aifengx.com/sitemap_baidu.xml
这两个有什么区别啊~~我是用baidu sitmap 生成的
没用过baidu sitemap…记得好像baidu的sitemap是有限制的,要新闻门户类型网站才有用。
我安装了BAIDU sitmap 生成的BAIDU地图
那就把sitemap的地址加上。。。记得用绝对路径。如:http://www.boxui.com/这里是sitemap的名称
朋友~因为我是针对BAIDU搜索引情的~~不知道这样做
对BAIDU搜索引情效果如何
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-
Allow:/wp-content/uploads/
Disallow: /?s=
Disallow: /?tag=
Disallow: /?feed=
Disallow: /?*cpage=
Disallow: /?*page=1$
Disallow: /?*replytocom=
Disallow: /?attachment_id=
sitemap:
这样~~吗
没错。。。如果你没有sitemap,去掉这一行。
为什么没有这一项啊
Allow: /wp-content/uploads/
这个看个人喜好,这个目录一般是放你上传的图片或者其它附件,如果你喜欢让搜索引擎访问这些可以加上。
User-agent: *
Disallow: /blog/wp-
Allow: /blog/wp-content/uploads/
Disallow: /?s=
Disallow: /?tag=
Disallow: /?feed=
Disallow: /feed/
Disallow: /?feed=
Disallow: /*/*/feed
Disallow: /?*cpage=
Disallow: /?*page=1$
Disallow: /?*replytocom=
Disallow: /?attachment_id=
Disallow: /trackback
Disallow: /*/*/trackback
Disallow: /index.php?
Disallow: /index.php/
Disallow: /*.php$
Disallow: /*.css$
Disallow: /date/
Disallow: /page/
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-
Disallow: /?s=
Disallow: /?tag=
Disallow: /?feed=
Disallow: /?*cpage=
Disallow: /?*page=1$
Disallow: /?*replytocom=
Disallow: /?attachment_id=
可以加兄弟的QQ聊聊吗~~小弟在这方面很差劲啊
没事的,放手去做。你可以在Google网站管理员后台查看到被阻止收录的网址。
好像之前那个兄弟!!的代码好长啊~~那些有用吗
我想只让搜索引情抓取!!文章之类的 朋友
因为不知道如何写~~怕搞出问题
朋友
可以帮忙一下啊
/public_html/是在这下面的~~谢谢你
还以为你不在也
把上面那段规则copy过去就行了,sitemap根据你自身情况自行修改。
首页,分类,文章,页面 只让搜索引情抓取这些~~啊~~大哥~~帮帮忙
小弟从来没有写过
基本上我在上面列出的规则都可以适用。。。
不知道准确的应该如何写啊!!小弟很菜的`~请求
你好~~今天才来学习这个robots.txt
我的根目录是 /public_html/
不知道该如何写啊~~最近发现蜘蛛爬行出现好多404啊~~BAIDU蜘蛛 也是的!!
博主~~教教小弟可以吗
你的网站是否直接安装在/public_html/目录下?还是在该目录下新建的目录?
盒子,
Disallow: /page/
或者
Disallow: /page
是一个意思吗?
具体是起什么作用呢?
我的google网站管理员工具中有很多“抓取错误-受 robots.txt 限制”。是robots.txt中有Disallow: /page/的原因吗?
Disallow: /page/ 和 Disallow: /page不是同一意思
Disallow: /page/表示不抓取目录名为page的页面
Disallow: /page表示不抓取网址后面含有page关键字的页面
我是用的伪静态地址该怎么写额?
我研究了一下想让他不收录评论页面咋弄?
使用伪静态地址时,只需要把带有?的链接地址全部禁用即可.
禁用评论页用这个:Disallow: /?*replytocom=
博主你好。我的博客程序由于放在网站的blog目录下,那么我的robots.txt的写法是否是这样:
User-agent: *
Disallow: /blog/cgi-bin
Disallow: /blog//wp-
Disallow: /blog//?s=
Disallow: /blog//?tag=
Disallow: /blog//?feed=
Disallow: /blog//?*cpage=
Disallow: /blog//?*page=1$
Disallow: /blog//?*replytocom=
Disallow: /blog//?attachment_id=
在前面多加一个/blog 么?
User-agent: *
Disallow: /blog/cgi-bin
Disallow: /blog//wp-
除了上面2个,其它的都不用加blog
谢谢博主,由于网站博客文件放在blog的目录下,根据您的建议修改中,最后改成
User-agent: *
Disallow: /blog/wp-
Allow: /blog/wp-content/uploads/
Disallow: /?s=
Disallow: /?tag=
Disallow: /?feed=
Disallow: /feed/
Disallow: /?feed=
Disallow: /*/*/feed
Disallow: /?*cpage=
Disallow: /?*page=1$
Disallow: /?*replytocom=
Disallow: /?attachment_id=
Disallow: /trackback
Disallow: /*/*/trackback
Disallow: /index.php?
Disallow: /index.php/
Disallow: /*.php$
Disallow: /*.css$
Disallow: /date/
Disallow: /page/
good…
博主,你现在的robots.txt好像不是这样子写的吧,貌似还有个/blog/
网站目录不同,我写的一般wordpress安装的默认路径.
当然,这只是一个建议。
看你的爱好啦。
多谢你的建议啦,其实之前也是有考虑这样做的,不过因为自己扩充了一些自定义标签,改动起来比较麻烦,而且怕以后换空间或者主题什么的会有所影响.
我用WP一年了。
换过主机4次。
板子没有换过
和URL没有影响。这些东西全在sql里。
不是可以自己设置的吗
就是自己设置…
你知道robot.txt的存在,别人也知道。可能会暴露一些你不想让别人知道的目录
这是没办法避免的,况且别人知道你的目录结构有很多办法,JS/CSS/图片链接等都可能暴露你的目录结构,重要的是做好防范措施.
请教下博主,
怎么设置 让搜索引擎在收录时不要 收录发表文章的时间日期。
期待 中….
你说的是文章存档吧?
Disallow: /?m=
robot优化很关键,感谢盒子的分享。
为什么还要 禁用站内搜索关键字?
我没说明白,准确的说应该是禁止搜索引擎收录你的站内搜索结果,而不是说禁用站内搜索.
这个搜索结果只会让搜索引擎会产生更多的重复内容,没什么作用,所以肯定要禁用的.
实际上让搜索引擎搜索的内容也就首页,分类,文章,页面….其它都是多余的.
看了这篇文章很受用,谢谢盒子啦!