一个基于Python 3的Pixiv爬虫，可下载画师和排行榜原图

博主： Rat's
发布时间：2019 年 07 月 14 日
49392 次浏览
25 条评论
1069 字数
分类：主机教程

说明：P站很多人不陌生了，这里分享个爬虫脚本，基于Python3，可直接下载排行榜、画师的原图。无需登录，无需cookies，也不需要其它依赖，使用纯Python原生模块，支持多线程下载，支持过滤已下载。由于官方需要登录才能下载原图，这里就绕过了官方，直接获取下载原图，毕竟不是原图就没得意义了，有需求的可以收藏下。

截图

请输入图片描述

使用

Github地址：https://github.com/MoeClub/Pixiv

要求：Python 3、网络能访问Pixiv站。

1、安装Python 3

#CenOS 6系统
rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-6.noarch.rpm
yum install python34 -y

#CenOS 7系统
rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
yum install python36 -y

#Debian 7、8系统
apt update
apt install python3 -y

Debian 9、10和Ubuntu系统自带Python 3，无需安装，可直接进行下一步。

2、下载脚本

wget https://raw.githubusercontent.com/MoeClub/Pixiv/master/pixiv.py

脚本默认25线程，想改的话，直接编辑脚本，搜索25，改成相应数字就可以了。

3、使用脚本

#下载画师原图，使用画师UID即可
python3 pixiv.py "673179" 
   
#下载排行榜原图，使用排行榜地址即可    
python3 pixiv.py "https://www.pixiv.net/ranking.php?mode=male"

版权声明：本文为原创文章，版权归 Rat's Blog 所有，转载请注明出处！
本文链接：https://www.moerats.com/archives/976/
如教程需要更新，或者相关链接出现404，可以在文章下面评论留言。

Vultr新用户注册送100美元/16个机房按小时计费，支持支付宝，【点击查看】。

最后修改：2021 年 06 月 06 日 10 : 37 PM

发表评论取消回复

评论 *

私密评论

名称 *

邮箱 *

地址

25 条评论

e
October 16th, 2020 at 09:17 am

各位dalao有没有e站的爬虫脚本

回复
lsp
October 11th, 2020 at 05:54 pm

我在博主代码的基础上，加入了GUI，优化了多线程（一个url对应多张图片的情况，并行度不高），加入了标签搜索，可以动态获取p站榜单的图片（selenium实现scroll down），具体可以参考https://github.com/LewisSean/pixiv_rank_web_crawler

回复
1. Rat's博主
  October 16th, 2020 at 11:51 pm
  
  @lsp
  可以，我玩玩先
  
  回复
annihilation
April 30th, 2020 at 01:55 am

大佬, 好像这个没有 scroll down 功能啊...

回复
miaomiaowang
October 17th, 2019 at 09:04 am

10月开始从浏览器访问不了，但是ping得通P站，你那边有出现类似的情况么？ins、推什么的使用正常。唯独P站无法在浏览器访问

回复
1. miaomiaowang
  October 17th, 2019 at 09:16 am
  
  @miaomiaowang
  而且很奇怪，直接在vps（美国）上运行脚本，也不行
  python3 pixiv.py "https://www.pixiv.net/ranking.php?mode=male"
  Traceback (most recent call last):
  File "/usr/lib64/python3.6/urllib/request.py", line 1318, in do_open
  encode_chunked=req.has_header('Transfer-encoding'))
  File "/usr/lib64/python3.6/http/client.py", line 1254, in request
  self._send_request(method, url, body, headers, encode_chunked)
  File "/usr/lib64/python3.6/http/client.py", line 1300, in _send_request
  self.endheaders(body, encode_chunked=encode_chunked)
  File "/usr/lib64/python3.6/http/client.py", line 1249, in endheaders
  self._send_output(message_body, encode_chunked=encode_chunked)
  File "/usr/lib64/python3.6/http/client.py", line 1036, in _send_output
  self.send(msg)
  File "/usr/lib64/python3.6/http/client.py", line 974, in send
  self.connect()
  File "/usr/lib64/python3.6/http/client.py", line 1407, in connect
  super().connect()
  File "/usr/lib64/python3.6/http/client.py", line 946, in connect
  (self.host,self.port), self.timeout, self.source_address)
  File "/usr/lib64/python3.6/socket.py", line 724, in create_connection
  raise err
  File "/usr/lib64/python3.6/socket.py", line 713, in create_connection
  sock.connect(sa)
  TimeoutError: [Errno 110] Connection timed out
  During handling of the above exception, another exception occurred:
  Traceback (most recent call last):
  File "pixiv.py", line 147, in <module>
  p.get_item(task)
  File "pixiv.py", line 65, in get_item
  page = self._http(UserID, self.DefaultHeader, True)
  File "pixiv.py", line 28, in _http
  res = request.urlopen(request.Request(url, headers=headers, method='GET'))
  File "/usr/lib64/python3.6/urllib/request.py", line 223, in urlopen
  return opener.open(url, data, timeout)
  File "/usr/lib64/python3.6/urllib/request.py", line 526, in open
  response = self._open(req, data)
  File "/usr/lib64/python3.6/urllib/request.py", line 544, in _open
  '_open', req)
  File "/usr/lib64/python3.6/urllib/request.py", line 504, in _call_chain
  result = func(*args)
  File "/usr/lib64/python3.6/urllib/request.py", line 1361, in https_open
  context=self._context, check_hostname=self._check_hostname)
  File "/usr/lib64/python3.6/urllib/request.py", line 1320, in do_open
  raise URLError(err)
  urllib.error.URLError: <urlopen error [Errno 110] Connection timed out>
  
  回复
  1. Rat's博主
    October 17th, 2019 at 11:43 pm
    
    @miaomiaowang
    我刚开了一台vultr试了一下，没问题，可以下载
    
    回复
YuasKD
September 5th, 2019 at 10:38 am

R 18 画师的爬不下来嘛

回复
南筱
August 29th, 2019 at 04:53 pm

有没有另一个P站的爬虫

回复
1. Rat's博主
  August 30th, 2019 at 12:09 pm
  
  @南筱
  有，不过不给你
  
  回复
  1. e
    October 16th, 2020 at 09:18 am
    
    @Rat's
    dalao 分享下吧
    
    回复
白给
July 16th, 2019 at 09:32 am

windows端也有
https://github.com/Tsuk1ko/pxder

回复
1. Rat's博主
  July 16th, 2019 at 05:41 pm
  
  @白给
  这个很久前发过，不过要登陆，没这个方便
  
  回复
  1. 白给
    July 16th, 2019 at 05:54 pm
    
    @Rat's
    不过下载自己点了收藏的图片就很方便
    
    回复
mikusa
July 15th, 2019 at 08:34 am

用画师uid批量下载的时候

回复
Mikusa
July 15th, 2019 at 08:30 am

如果下载的时候能加上作者的id或是名字就好了

回复
1. Rat's博主
  July 15th, 2019 at 10:38 am
  
  @Mikusa
  已经给萌咖说了下，稍后达到你的要求。
  
  回复
  1. mikusa
    July 15th, 2019 at 11:07 am
    
    @Rat's
    太棒了！
    
    回复
心灵博客
July 14th, 2019 at 10:02 pm

第一次知道有个p站了，要登陆，丢弃

回复
1. Rat's博主
  July 15th, 2019 at 12:07 am
  
  @心灵博客
  这个站好东西还是不少的
  
  回复

一个基于Python 3的Pixiv爬虫，可下载画师和排行榜原图

截图

使用

发表评论取消回复

25 条评论

CTList：一个可以绑定多个天翼云网盘的目录列表程序，支持视频播放

博客将不定期赠送DigitalOcean $50优惠码

VPS上传文件到OneDrive网盘脚本，可配合Aria2实现自动上传

免费申请一年期限的AlphaSSL泛域名证书

Aria2+Rclone+DirectoryLister+Aria2Ng一键安装脚本 for Debian

Linux安装dos2unix来转换文件格式

一个二次元搜图、搜番、搜本子QQ机器人，支持SauceNAO、WhatAnime、Ascii2d等网站

WordPress设置评论间隔时间，防止刷垃圾评论内容

搭建一个基于有赞开发的要饭网站

一个好用的网站日志分析工具：360星图

截图

使用

发表评论 取消回复

25 条评论

发表评论取消回复