【图】搜索引擎的蜘蛛人（ROBOTS）秘密

我们知道，搜索引擎都有自己的“搜索机器人”（ROBOTS），并通过这些ROBOTS在网络上沿着网页上的链接（一般是http和src链接）不断抓取资料建立自己的数据库。

对于网站管理者和内容提供者来说，有时候会有一些站点内容，不希望被ROBOTS抓取而公开。为了解决这个问题，ROBOTS开发界提供了两个办法：一个是robots.txt，另一个是The Robots META标签。

一、 robots.txt

1、什么是robots.txt？

robots.txt是一个纯文本文件，通过在这个文件中声明该网站中不想被robots访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那么搜索机器人就沿着链接抓取。

robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

网站 URL
相应的 robots.txt的 URL

http://www.w3.org/
http://www.w3.org/robots.txt

http://www.w3.org:80/
http://www.w3.org:80/robots.txt

http://www.w3.org:1234/
http://www.w3.org:1234/robots.txt

http://w3.org/
http://w3.org/robots.txt

本新闻共9页,当前在第1页 1 2 3 4 5 6 7 8 9

热门搜索

搜索引擎的蜘蛛人（ROBOTS）秘密

猜你喜欢

搜索引擎的蜘蛛人（ROBOTS）秘密

微软真人搜索引擎

s8lol主宰符文怎么配

新春搜索引擎logo

趣味搜索引擎大观

lol偷钱流符文搭配推荐

搜索引擎技术核心揭密

使用ASP建设私人搜索引擎

lolAD刺客新符文搭配推荐

Flash AS3教程：组件的组合运用制作FLV播放器

《神魔》打造全满暴击攻略