30行代码爬取妹子图整站美女图片

纯情 2017年 10月 14 日

阅读选项

注意：
1.由于是python2.7写的，请不要把文件名字改成中文，否则有可能闪退或执行不成功。
2.由于是python2.7写的，请不要存放在带有中文的路径中，比如桌面，就有可能执行不成功。可以尝试放到任何一个盘的根目录再测试。2017年10月12日更新: （版本号：mztSpider_v1.0.exe）
1.把程序打包成EXE文件.
2.因为scrapy不能打包成单个EXE环境,所以将文件修改成单文件,并采用多线程.
EXE文件下载地址:
链接: https://pan.baidu.com/s/1bpvYlNh 密码: fxn2

2017年10月13日更新: （版本号：mztSpider_v1.1.exe）
1.增加由用户输入起始页.
2.重新引入sys包设置编码,解决部分用户乱码和闪退问题.
3.取页面图片个数规则重新调整，解决部分用户爬取到一半程序会退出问题
EXE文件下载地址:
链接: https://pan.baidu.com/s/1bpvYlNh 密码: fxn2

2017年10月13日更新: （版本号：mmjpgSpider_v1.0.exe）
1.更改爬取链接
2.把爬取代码提取成方法

EXE文件下载地址:
链接: https://pan.baidu.com/s/1bpvYlNh 密码: fxn2

更新后效果图：

爬行效果图:

scrapy Spider完整代码:

# -*- coding: utf-8 -*-
import requests
import os
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
 
 
class MzituSpider(CrawlSpider):
    name = 'mzituSpider'
    start_urls = ['http://www.mzitu.com/']
    rules = (Rule(LinkExtractor(allow=('http://www.mzitu.com/\d{1,6}',), ), callback='parse_item', follow=True),)
 
    def header(self, referer):
        headers = {
            'Host': 'i.meizitu.net',
            'Pragma': 'no-cache',
            'Accept-Encoding': 'gzip, deflate',
            'Accept-Language': 'zh-CN,zh;q=0.8,en;q=0.6',
            'Cache-Control': 'no-cache',
            'Connection': 'keep-alive',
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36',
            'Accept': 'image/webp,image/apng,image/*,*/*;q=0.8',
            'Referer': '{}'.format(referer),
        }
        return headers
 
    def parse_item(self, response):
        imageUrl = response.css(".main-image img ::attr(src)").extract_first()
        with open('images' + os.sep + imageUrl.split('/')[-1], "wb+") as jpg:
            jpg.write(requests.get(imageUrl, headers=self.header(imageUrl)).content)

以下方法不需要了,直接下载EXE文件执行就行了.执行方法：
1.必须安装scrapy。
2.scrapy startproject mzitu
3.cd mzitu
4.scrapy genspider mzituSpider www.mzitu.com
5.在spider下会生成一个mzituSpider.py的文件，把上面的内容替换一下就可以执行了。
6.scrapy crawl mzituSpider
感觉没有点基础的会有点难。我决定折腾下看是不是可以打包成Exe文件，给大家发出来。。。
不过这玩意爬的人多了不知道会不会把人家妹子图站给爬死去。。要是人家用阿里云，每个整个5G的上行流量费用也得好几块哈。

2017年10月13日更新: （版本号：mmjpgSpider_v1.0.exe）
1.更改爬取链接
2.把爬取代码提取成方法

EXE文件下载地址:
链接: https://pan.baidu.com/s/1bpvYlNh 密码: fxn2

更新后效果图：

爬行效果图:

scrapy Spider完整代码:

# -*- coding: utf-8 -*-
import requests
import os
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
 
 
class MzituSpider(CrawlSpider):
    name = 'mzituSpider'
    start_urls = ['http://www.mzitu.com/']
    rules = (Rule(LinkExtractor(allow=('http://www.mzitu.com/\d{1,6}',), ), callback='parse_item', follow=True),)
 
    def header(self, referer):
        headers = {
            'Host': 'i.meizitu.net',
            'Pragma': 'no-cache',
            'Accept-Encoding': 'gzip, deflate',
            'Accept-Language': 'zh-CN,zh;q=0.8,en;q=0.6',
            'Cache-Control': 'no-cache',
            'Connection': 'keep-alive',
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36',
            'Accept': 'image/webp,image/apng,image/*,*/*;q=0.8',
            'Referer': '{}'.format(referer),
        }
        return headers
 
    def parse_item(self, response):
        imageUrl = response.css(".main-image img ::attr(src)").extract_first()
        with open('images' + os.sep + imageUrl.split('/')[-1], "wb+") as jpg:
            jpg.write(requests.get(imageUrl, headers=self.header(imageUrl)).content)

我要评论

KokonoseHaruka

2017-12-10

补链谢谢

阿符

LV1

2017-10-31

链接挂了

30行代码爬取妹子图整站美女图片

阅读选项

那年今日

微信分享二维码

随机文章

EZPPT —— 一键生成可导出 PDF/PPTX 的演示文稿平台

C++黑客编程揭秘与防范高清 PDF

免费服务器 2012 R2 4核 4G 2M 免费6个月活动时间有限

（宣讲汇总）2016年10月21日托福考试真题及答案

黑客的种类和行为以我的理解，“黑客”大体上应该分为

linux提权辅助工具 linux-smart-enumeration

评论区(2条评论)

我要评论

30行代码爬取妹子图整站美女图片

阅读选项

那年今日

微信分享二维码

随机文章

EZPPT —— 一键生成可导出 PDF/PPTX 的演示文稿平台

C++黑客编程揭秘与防范 高清 PDF

免费服务器 2012 R2 4核 4G 2M 免费6个月 活动时间有限

（宣讲汇总）2016年10月21日托福考试真题及答案

黑客的种类和行为以我的理解，“黑客”大体上应该分为

linux提权辅助工具 linux-smart-enumeration

评论区(2条评论)

我要评论

C++黑客编程揭秘与防范高清 PDF

免费服务器 2012 R2 4核 4G 2M 免费6个月活动时间有限