服务热线
198-9911-5815
虚拟主机域名注册-常见问题 → 网站推广问题 → 网站推广问题 | ||||
Robots.txt文件到底应该怎么写? 基本上Robots.txt会用到以下几个参数: 1、User-agent:填入搜索引擎蜘蛛的值(*号代表全部),主要定义下面的规则对那些搜索引擎生效。 常用的搜索引擎蜘蛛的值有:Googlebot(谷歌)、Baiduspider(百度)、Yahoo-slurp(雅虎)、Sogou spider(搜狗)、360Spide(360),如果没有其它特殊要求直接用*号即可。 2、Disallow:指定哪些目录或文件类型不想被抓取,需要指明路径,否则将会被忽略。 Disallow应该不能算是不抓取参数,因为如果是Disallow:(那么就是允许抓取所有内容),如果是Disallow: /(那么就是不允许抓取所有内容),如果填Disallow: /jyhost/(则是不允许抓取jyhost目录的所有内容)。不知道大家能否看懂,等下给大家举几个例子。 3、Allow:指定哪些目录或文件类型可以被抓取,需要指名路径,否则将会被忽略。 一般很少会用到这个,如果填Allow: /jyhost/(那么就是允许抓取jyhost目录的所有内容)。 如果您有一个需要禁止抓取的目录,但希望抓取该目录中的一个目录,就可以用如下代码(允许抓取seoziyuan目录里的seo,禁止抓取seoziyuan): User-agent:* Allow:/seoziyuan/seo/ Disallow:/seoziyuan/ 4、Sitemap:指定网站内的Sitemap地图放置的位置,需使用绝对路径,如本站案例。 Sitemap: https://www.jyhost.com/sitemap.xml 可以不用填写,如果有网站地图的最好加上 Robots.txt文件上的通配符和结束符 1 、通配符(*) 主流的搜索引擎基本都支持通配符和结束符。通配符会存在一部分未知的页面,所以使用时需要注意。例如: Disallow:/html/*/66 *(星号)表示“匹配任何文本”,上述指令表示:阻止抓取以下所有地址: http://example.com/html/aa/66 http://example.com/html/bb/66 http://example.com/html/cc/66 http://example.com/html/.../66 小心!以上还将阻止以下链接(可能不是您想要的): http://example.com/html/aa/bb/cc/66 http://example.com/html/dd/ee/66 2、结束符($) 在指令最后加入“$”。比如,如果你想屏蔽所有以.php结尾的链接,那么你的可以设置成这样: User-agent: * Disallow: /*.php$ 在这个例子中,搜索引擎无法抓取任何以.php结尾的链接,意味着搜索引擎无法抓取/index.php,但是搜索引擎可以抓取这个 /index.php?id=1450347,因为它没有以“.php”结尾。 Robots.txt举例 1、允许所有搜索引擎抓取任何部分 User-agent: * Disallow: 2、禁止所有搜索引擎抓取任何部分 User-agent: * Disallow: / 3、不允许百度抓取zb_system目录 User-agent: Baiduspider Disallow: /zb_system/ 4、禁止抓取/html/目录下的所有以“.htm”为后缀的链接。 User-agent: * Disallow: /html/*.htm 5. 仅允许抓取以“.html”为后缀的链接。 User-agent: * Allow: .html$ Disallow: / 6. 禁止抓取网站所有的动态页面 User-agent: * Disallow: /*?* 7. 允许抓取jpg图片格式的文件,禁止抓取png图片格式的文件 User-agent:* Allow .jpg$ Disallow: .png$
|
||||
>> 相关文章 | ||||
没有相关文章。 |