百度与360公司爬虫机器人不正当竞争纠纷案,又被称为Robots协议案,是中国搜索领域爬虫机器人竞争第一案,该案关系互联网行业尤其是搜索引擎的基本游戏规则而广泛被业界、政府和网民关注。
8月7日,该案宣判,北京市第一中级人民法院驳回了百度有关不正当竞争的诉求,表明百度单方面利用歧视性Robots协议打击竞争对手的行为不会被公众和法庭所支持,而360则可以继续抓取百度的内容网站。
据悉,Robots协议由荷兰籍网络工程师Martijn Koster于1994年首次提出,是一个被放置在网站中的.TXT文件,为搜索引擎爬虫做出提示,设置允许与不允许两种语句,网络爬虫据此“自觉地”抓取或者不抓取该网页内容。Robots协议的目的,是为了保障著作权、保护个人隐私,尽可能地让互联网健康发展。
虽然名为“协议”,但Robots协议只是行业惯用的说法。它既不是法律意义上的协议,也不是国际组织采纳的标准,因此不受任何机构保护。而百度的Robots协议的特别之处,在于其白名单机制——允许除360之外的搜索引擎访问百度网站,这种白名单在全球是绝无仅有的。
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。 因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。
User-agent: name_spider
Allow:
拦截所有的机器人:
User-agent: *
Disallow: /
禁止所有机器人访问特定目录:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
仅禁止坏爬虫访问特定目录(BadBot用真实的名字代替):
User-agent: BadBot
Disallow: /private/
禁止所有机器人访问特定文件类型:
User-agent: *
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
部分内容来源于,凤凰网科技 > 互联网
http://tech.ifeng.com/internet/detail_2014_08/07/37923386_0.shtml更多技术交流可访问开放自由的nat123论坛http://bbs.nat123.com
快速了解相关:
使用端口映射还是动态域名解析?>
端口映射与动态域名解析的区别?>
选择什么映射类型?
80映射与网站加速的区别?>
本地加速与网站加速的区别?>
免费与VIP的区别?>
如何选择映射VIP?
如何使用映射VIP(80网站)?>
如何使用映射VIP(非网站)?>
如何使用动态域名解析VIP服务?
如何使用自己的域名(根域名和www子域名)?>
客户端帐号能否多处登陆?
当前活动:
1.
非80映射免费VIP。
2.
80映射免费VIP全映射。
3.
非网站免费VIP全端口。
4.
充值送N币再送T币。
5.
站外分享送T币活动。
端口映射高级功能:
1.
如何切换使用映射VIP线路。
2.
http穿透解决http屏蔽问题。
3.
端口映射应用多机负载均衡。
4.
80映射网站默认使用快照提示取消。
5.
映射网站默认未登录提示页面自定义。
6.
如何设置映射网站离线转跳自定义目标地址。
7.
防火墙与访问日志(查看来访者IP和阻止IP端口)。
8.
80网快照录制和缓存删除。
9.
自主发布映射服务。
10.
自主选择网站集群线路访问端国内外区域。
动态域名解析高级功能:
1.
动态域名解析应用多机负载均衡。
2.
动态域名解析VIP怎么用。
域名解析高级功能:
1.
域名解析A记录宕机检测和故障转移。
2.
URL显性转发和隐性转发。
3.
URL转发默认提示取消。
远程开机:
1.
微信/网页远程开机。
![]() |
![]() |
![]() |