分布式爬虫架构并不是一开始就出现的。而是一个逐步演化的过程。
最开始入手写爬虫的时候,我们一般在个人计算机上完成爬虫的入门和开发,而在真实的生产环境,就不能用个人计算机来运行爬虫程序了,而是将爬虫程序部署在服务器上。利用服务器不关机的特性,爬虫可以不间断的24小时运行。单机爬虫的结构如下图。
然而,由于爬虫在爬取数据时,爬取频次并不能太快,即使是爬虫在服务器上不间断运行,效率可能也无法满足实际需求。这时候,就需要在多机上部署爬虫程序,用分布式爬虫架构,进行数据爬取。分布式爬虫的架构一般如下所示。
采用分布式爬虫架构后,带来了如下几个好处。
- 1,爬虫效率提高。这一点显而易见,之前是单机运行,现在是多机分布式运行,效率显著提高。
- 2,爬虫可靠性可用性提高。之前部署在一台服务器上,当服务器出现故障或爬虫程序出现故障时,爬虫便不可用了。采用分布式爬虫架构后,爬虫任务生产者,任务队列,爬虫任务消费者都采用分布式架构部署,其中的某些机器出现故障,不影响整体的可用性,系统可靠性大大增强。
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对的支持。如果你想了解更多相关内容请查看下面相关链接
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件!
如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
岱庙资源网 Copyright www.zgmyg.com
暂无“爬虫技术之分布式爬虫架构的讲解”评论...
更新日志
2024年05月17日
2024年05月17日
- 刘欢.2004-经典20年珍藏锦集【新索】【WAV+CUE】
- 中唱唱片群星《好歌珍藏-游子情深》2CDWAV
- CD圣经上榜天碟1995-乌仁娜-《蒙古草原之歌》[WAV+CUE].
- 【电影原声】武满彻《旭日东升》1993[WAV+CUE整轨]
- Taylor Swift《THE TORTURED POETS DEPARTMENT》[320K/MP3][148.54MB]
- Taylor Swift《THE TORTURED POETS DEPARTMENT》[FLAC/分轨][405.72MB]
- Joyce Jonathan《法式松弛感 漫步香榭丽舍》[320K/MP3][80.8MB]
- 女神异闻录5佐仓双叶coop攻略 p5r佐仓双叶对话选项攻略
- 【民谣】张智《尼勒克小镇》[FLAC]
- 林一峰2018-TRAVELOGUE4ESCAPE[香港首版][WAV+CUE]
- MollyLewis《OnTheLips》(2024)[Hi-Res96kHz_24bitFLAC]
- Joyce Jonathan《法式松弛感 漫步香榭丽舍》[FLAC/分轨][230.77MB]
- 群星《影视剧 春色寄情人 原声带》[320K/MP3][394.18MB]
- 吴牧野《强者独白II 李斯特巅峰作品选》[320K/MP3][216.01MB]
- 女神异闻录5御船千早coop攻略 p5r御船千早对话选项攻略