讲解thinkphp5.1如何实现多线程爬虫

下面thinkphp框架教程栏目将给大家讲解thinkphp5.1 利用cli命令行+guzzle类库实现多线程爬虫,希望对需要的朋友有所帮助!

创建一个cli命令

php think make:command Thread thread

测试能否成功执行

php think thread

安装Guzzle类库

文档地址:guzzle文档地址(https://guzzle-cn.readthedocs.io/zh_CN/latest/quickstart.html)

实现代码

<?php /**  * Created by.  * User: Jim  * Date: 2020/9/29  * Time: 14:31  */  namespace appcommand;  use GuzzleHttpClient; use GuzzleHttpPool; use thinkconsoleCommand; use thinkconsoleInput; use thinkconsoleOutput;  /**  * Guzzle  * Class Thread  * @package appcommand  * 文档地址 https://guzzle-cn.readthedocs.io/zh_CN/latest/quickstart.html  */  class Thread extends Command {      /**      * 请求的总次数      * @var int      */     protected $totalPageCount = 50;     /**      * 当前请求的次数      * @var int      */     protected static $counter = 1;     /**      * 线程的数量      * @var int      */     protected $threads = 20;      protected function configure()     {         // 指令配置         $this->setName('thread');         // 设置参数      }      protected function execute(Input $input, Output $output)     {          $client = new Client();         $requests = function ($total) use ($client) {             foreach (range(1, $total) as $r) {                 $uri = 'https://apinew.juejin.im/content_api/v1/short_msg/detail';                 yield function () use ($client, $uri) {                     return $client-&gt;postAsync($uri, [                         'verify' =&gt; false,                         'json' =&gt; [                             'msg_id' =&gt; '6845185452727599118'                         ]                     ]);                 };             }          };          $pool = new Pool($client, $requests($this-&gt;totalPageCount), [             'concurrency' =&gt; $this-&gt;threads,             // 请求成功             'fulfilled' =&gt; function ($response, $index) use ($output) {                 $res = $response-&gt;getBody()-&gt;getContents();                 $output-&gt;writeln($res);                 $output-&gt;writeln("正在执行第{$index}个·····");                 if ($this-&gt;checkThreadIsEnd() == true) {                     $output-&gt;writeln("------------请求结束---------");                     return false;                 }             },             // 请求失败             'rejected' =&gt; function ($reason, $index) use ($output) {                 $output-&gt;writeln("执行失败,{$reason}");             },         ]);         $promise = $pool-&gt;promise();         $promise-&gt;wait();     }      /**      * 检测任务是否结束      * @return bool      */     private function checkThreadIsEnd()     {         if (self::$counter totalPageCount) {             self::$counter++;             return false;         } else {             return true;         }     }   }

执行命令

php think thread

效果

讲解thinkphp5.1如何实现多线程爬虫

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享