在Go的爬虫colly中,设定queue线程数和请求延迟后,实际效果是怎样的?

在Go的爬虫colly中,设定queue线程数和请求延迟后,实际效果是怎样的?

go语言爬虫库Colly:队列线程数与请求延迟的实际影响

本文探讨Go语言爬虫库Colly中queue线程数设置及其与请求延迟的交互作用。 我们将分析设定线程数和请求延迟后,实际爬取过程中的表现差异。

假设我们设置队列线程数为2:

q, _ := queue.New(2, storage)

并向其中添加三个请求。同时,为collector设置5秒的请求延迟:

c.Limit(&colly.LimitRule{DomainGlob: "*", Delay: 5 * time.Second})

预期是:两个线程几乎同时发出前两个请求,并在5秒后得到响应;第三个请求在10秒后发出并响应。然而,实际结果并非如此:

  1. 前两个请求被创建。
  2. 5秒后,第一个请求响应。
  3. 第三请求随即创建。
  4. 另5秒后,第二个请求响应。
  5. 再5秒后,第三个请求响应。

这表明Colly的请求延迟并非仅作用于单个请求,而是影响整个队列的处理。 如果设置了请求延迟,队列线程数的设置似乎失效。

这种现象的原因可能有:

  1. 请求处理的串行化: 尽管设置了两个线程,但由于collector的延迟设置,每个请求必须在前一个请求完成之后才能开始。 这导致实际处理过程变成了串行。
  2. 延迟的累积效应: 第一个请求响应耗时5秒,第二个请求延迟5秒后才开始,第三个请求则在第二个请求响应后才开始,延迟效果累积,每个请求都需要等待前一个请求的完成。

关于Colly的OnRequest回调函数,需要注意的是,它主要用于创建请求,而非实际发出请求。请求加入队列后OnRequest触发,而请求的实际发出由Colly内部机制控制。

因此,在Colly中使用queue时,如果设置了请求延迟,线程数设置可能无法达到预期效果。 理解这种机制对于优化爬虫程序至关重要。

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享