1 3 7 - 1 4 4 1 - 9 7 9 7
首页 > 品牌伙伴 > 品牌伙伴详细内容

公司网站制造爬虫"黑洞"

来源:网页设计公司 | 作者:网页设计公司 | 时间:2022-02-05 | 浏览:1779
字体大小:

网页制作公司网站建设公司网页设计公司


爬虫“黑洞”。爬虫在汇集藏文网页的进程中, 必须思索能够泛起的“黑洞”环境。



爬虫黑洞是指, 在抓取一张网页的链接时, 链接自己是一个无穷轮回, 招致爬虫抓取时随着轮回, 挥霍本钱。偶然一些URL看起来分歧, 但理论指向统一张网页, 也会使爬虫堕入频频抓取的地步。



为了制止爬虫误入黑洞, 一样平凡采纳两种计谋。一是爬虫躲避静态网页, 因为静态网页经常会把爬虫带入黑洞。辨认静态网页时, 只需求断定URL中是否是泛起问题, 含问号的就是静态网页。二是应用Visited表记载已会见过的URL, 但凡碰着新的URL存在于Visited表, 就摒弃对该URL的持续措置。比方:当碰着a→b→c→d→c→e如许的环路链接, 爬虫就会掉出来, 频频抓取c、d对应的页面。应用Visited表, 就能制止这个问题。



免责声明:本文内容由互联网用户自发贡献自行上传,本网站也不承担相关的法律责任。如果您发现本文章中有涉嫌抄袭的内容,请发送邮件至:sales@sznetsoft.com或者至电给本网站进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权的内容。
相关信息
  • QQ好友
  • QQ空间
  • 腾讯微博
  • 新浪微博
  • 人人网
  • 豆瓣网
  • Facebook
  • Twitter
  • linkedin
  • 谷歌Buzz


线

网软通在线


在线客服: 点击这里给我发消息                        

1231.jpg

留言内容