网页制作公司,网站建设公司,网页设计公司,
爬虫“黑洞”。爬虫在汇集藏文网页的进程中, 必须思索能够泛起的“黑洞”环境。
爬虫黑洞是指, 在抓取一张网页的链接时, 链接自己是一个无穷轮回, 招致爬虫抓取时随着轮回, 挥霍本钱。偶然一些URL看起来分歧, 但理论指向统一张网页, 也会使爬虫堕入频频抓取的地步。
为了制止爬虫误入黑洞, 一样平凡采纳两种计谋。一是爬虫躲避静态网页, 因为静态网页经常会把爬虫带入黑洞。辨认静态网页时, 只需求断定URL中是否是泛起问题, 含问号的就是静态网页。二是应用Visited表记载已会见过的URL, 但凡碰着新的URL存在于Visited表, 就摒弃对该URL的持续措置。比方:当碰着a→b→c→d→c→e如许的环路链接, 爬虫就会掉出来, 频频抓取c、d对应的页面。应用Visited表, 就能制止这个问题。
免责声明:本文内容由互联网用户自发贡献自行上传,本网站也不承担相关的法律责任。如果您发现本文章中有涉嫌抄袭的内容,请发送邮件至:sales@sznetsoft.com或者至电给本网站进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权的内容。