Python爬虫中生产者和消费者模式是什么-创新互联

创新互联www.cdcxhl.cn八线动态BGP香港云服务器提供商，新人活动买多久送多久，划算不套路！

创新互联建站长期为上千多家客户提供的网站建设服务，团队从业经验10年，关注不同地域、不同群体，并针对不同对象提供差异化的产品和服务；打造开放共赢平台，与合作伙伴共同营造健康的互联网生态环境。为高唐企业提供专业的成都网站建设、网站制作，高唐网站改版等技术服务。拥有10多年丰富建站经验和众多成功案例,为您定制开发。

这篇文章将为大家详细讲解有关Python爬虫中生产者和消费者模式是什么，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

认识生产者和消费者模式

生产者和消费者是多线程中很常见的一个问题。产生数据的模块，我们称之为生产者，而处理数据的模块，就称为消费者。但是单单只有生产者和消费者显然还是不够的，一般来说，我们还有一个缓冲区，抽象出来的流程如下图所示。

Python爬虫中生产者和消费者模式是什么

将这个过程以实际例子来说明：

假如我们是一个生产辣条的厂家，我们生产出来的辣条肯定是一箱一箱地放在仓库里面，然后卖出去给消费者。【不再考虑经销商环节】

1.我们把一箱一箱的辣条生产好。——>>>相当于生产者制造数据

2.我们把辣条放到仓库中。——>>>相当于将数据放到缓冲区

3.我们把辣条给取出来。——>>>相当于把数据从缓冲区取出

4.我们把取出的辣条卖给消费者吃掉。——>>>相当于从缓冲区出来的数据经过了处理

应用于爬虫

生产者：不断产生待爬取的url。【比如需要下载图片，此时就需要不断获取图片的url】

缓冲区：将获取到的url进行储存。

消费者：对生产者获取到的url从缓冲区拿出来，然后发起请求。【相当于对下载url】

对于通用爬虫(单线程)来说，我们拿到一个图片的url，然后就进行下载，效率太低。

对于异步爬虫(多线程)来说，我们可以同时从缓冲区取出多个图片的url，然后一次多张下载。

Queue队列线程安全

当采用多线程的生产者和消费者模式时，生产者生产出来的数据【对应于爬虫爬取到的图片url】,将其储存于缓冲区，【缓冲区即全局变量】，此时必然面临一个问题，就是数据不同步【数据错乱】等问题，后续再执行操作就存在一定问题了。

再举个例子：

比如有一个列表为A=[0]，此时去修改里面的值，修改实际上分为两步：第一步是选取到那个元素，第二步才是赋值修改。如果说是多线程来执行这个操作，就有可能会发生一些意想不到的错误。比如第一个线程要赋值为1，第二个线程要赋值为2。按照我们正常的理解，最终结果应该是2，但是对于多线程来说，它的结果也有可能是1。

考虑这一种情况，当线程1选定了A[0]，此时切换到了线程2，然后线程2选定了A[0]，并且执行了下一步赋值的操作，这样就先将A这个列表赋值为2了，接着再次切换到了线程1，此时线程1完成赋值（因为在前面已经选定），此时最终结果变为1。所以多线程总是会面临各种数据不安全的问题。

Python爬虫中生产者和消费者模式是什么

解决方案：

1.加锁机制(已经讲过)

2.Queue队列线程安全。

什么是Queue队列线程安全？

类似列表，但又不是列表。

在Python中提供了同步的、线程安全的队列类，这些队列都实现了锁原语，能够在多线程中直接使用。可以使用队列来实现线程间的同步，即保证数据不会乱掉。

Python爬虫中生产者和消费者模式是什么

关于Python爬虫中生产者和消费者模式是什么就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

网站名称：Python爬虫中生产者和消费者模式是什么-创新互联
网页链接：http://6mz.cn/article/cedjgi.html

网站建设知识

Python爬虫中生产者和消费者模式是什么-创新互联

其他资讯