Robots是网站和爬虫之间的协议,用简单直接的txt格式告诉对应的爬虫允许的权限。也就是说,robots.txt是搜索引擎访问网站时首先查看的文件。想要一个网站被收录,必须要有一些robots.txt。
准备一个域名,空。域名就是所谓的URL,而空房间就是存放这个网站的地方。
域名准备好了,网站就建好了。网站建好之后,首先要分析页面是否会被搜索引擎抓取,然后再进行展示。这是启动一些机器人文件的时候了。比如蜘蛛访问一个网站(比如禁止搜索引擎抓取),搜索引擎就不会索引显示该网站。
那么如何才能防止搜索引擎抓取呢?怎么会被搜索引擎抓取?然后我们来说说DisAllow和Allow这两个命令的用法。首先,用户代理是搜索引擎能否抓取页面的开始。下面是不允许和允许的选择。具体写法如下
robots.txt文件用法示例:
1.允许所有机器人访问
用户代理:*允许:/或用户代理:*不允许:
2.禁止所有搜索引擎访问网站的任何部分
用户代理:*
不允许:/
3.只有Baiduspider被禁止访问您的网站。
用户代理:Baiduspider
不允许:/
4.只允许Baiduspider访问您的网站
用户代理:Baiduspider
不允许:
5.禁止蜘蛛访问特定目录
用户代理:*
不允许:/cgi-bin/
不允许:/tmp/
不允许:/~joe/
6.允许访问特定目录中的某些URL
用户代理:*
允许:/cgi-bin/see
允许:/tmp/hi
允许:/~乔/看
不允许:/cgi-bin/
不允许:/tmp/
不允许:/~joe/
7.使用“*”限制对url的访问
禁止访问所有带“,”的网址(包括子目录)。htm "后缀放在/cgi-bin/目录中。
用户代理:*
不允许:/cgi-bin/*。html文件的后缀
8.使用“$”限制对url的访问
只有带后缀"的URL。htm "被允许访问。
用户代理:*
允许:。htm$
不允许:/
9.禁止访问网站中的所有动态页面。
用户代理:*
不允许:/*?*
10.禁止Baiduspider抓取网站所有图片。
只允许网页,不允许图片。
用户代理:Baiduspider
不允许:。jpg美元
不允许:。jpeg美元
不允许:。gif$
不允许:。巴布亚新几内亚美元
不允许:。bmp$
通常的机器人书写方法是以上10种。如果还有其他的写作方法,后面会给大家详细介绍。