存档

文章标签 ‘Scrapy’
2月
08

爬取Zero动漫下载链接的几种方法

我总算发现了,我只有在想偷懒的时候才会变得很勤奋。。

ZERO动漫

这小标题看起来有点像软文啊!!其实真的不是啊!!

我一般看动画的方式,当它还在连载的时候,我就在B站上看,之后在它完结或者换季番的时候,我会选择一部分来收藏,其实虽说是收藏,更像是留着等“布教”用,在给那些不逛B站的人宣传某部动画之后可以马上拿出资源给他们,顺便拉其入坑!!

基于此,所以我一般移动硬盘里面放的也不是BD版本,就是普清版本,经过本科时的各种研究,我现在基本定下来在Zero动漫下载动画,虽然我也知道极影啊,动漫花园啊,还有天使动漫这些论坛之类的,而且我也分别有一段时间在这些地方下过,但是最后发现最常来的还是ZERO动漫,我也不怎么清楚为什么,可能是“找资源”这个过程是最省事的吧。。。毕竟一部动画就一个页面,而不像极影之类的搜一部动画可以找到各种字幕组的。。最后下下来发现是各种字幕组的大杂烩,虽然下载合集的话极影那些会比较方便~

好吧,扯远了,回到Zero动漫,作为迅雷党,一般有两个路径在Zero上找到资源: 阅读全文…

分类: Python 标签: , , , ,
10月
30

抓取豆瓣相册图片——Mathematica版

之前写了一篇利用Scrapy去豆瓣“盗图”的文章,然后昨晚研究了一下mathematica,发现,其实它也可以做。。。当然,不能跟专业的Scrapy比,但是没有配置Scrapy环境或者懒得去搞那么复杂的东西的少年们,可以试一下Mathematica,而且mathematica因为在字符串匹配上和Python有着莫大的差距,所以一定把网页源文件爬下来后,如果有复杂的字符串操作需求,搞不好Mathematica会更强大。。但是,再说一句,这个不是专业的。。。

我们依旧以《海女》为例【顺便祭奠一下我那篇跳票了一个月的影评。。。】,首先分析网页源文件,在这之前,你要获得源文件,Mathematica有两种方法,一个是Import导入html,一个是URLFetch,但是我试了一下,两个都不怎么好使,其中Import导入的html会帮你排好版,但是排好版有什么用?而且图片的信息全部丢了,而后者URLFetch返回的就是原封不动的纯文本源代码,但是SCrapy的经验是,我们需要一个类似XPath一样的树状结构,搜了一下,Mathematica有一种变量XMLElement,他就是可以结构化源文件的东西,要怎么获得呢?嗯,还是Import,但是用XMLObject转一下~ 阅读全文…

10月
07

Scrapy+Mathematica制作神奇宝贝图鉴书签

话说最近不是那个神奇宝贝起源开播了么?呀呀呀呀,真是的,那个BGM,那个剧情走向,真是让人把持不住啊。。。

加上之前学Python和Scrapy,很想找个什么东西来练练手,所以就决定了题目所说的那个”企划”,事实证明,这个东西其实一天就可以解决了。。。下面就是制作出来的成果啦~

阅读全文…

10月
01

Scrapy抓取豆瓣相册(学习笔记)

情况是这样子的,因为前两天NHK的晨间剧《海女》完结了嘛,加之之前写《蜂蜜与四叶草》的时候说过到时要为海女专门写一篇的,于是乎,我下午就开始写啦,我写这种文章的时候总免不了去找图,然后在豆娘那里就看到了很多好图,尤其是能年犬的,所以就想把图片全部下下来,然后轮流当桌面,但是一看下面,狗眼瞎了,1500+张,于是,按照我的性格,果断就把《海女》的博文扔一边了,跑去研究怎么全部下下来好了。。。所以呢~海女的博文,我过几天再写吧。。。

前阵子一直在自学python,其实为了就是搞python(x,y)而已,而且没有搬砖需求,纯属自娱自乐。。我一开始就知道python很适合爬虫的,而且scrapy我“觊觎”很久了,准备学会python就狠狠搞一下!!今天是个机会,反正python学了好一部分了,所以就开始搞爬虫,几个小时下来,总算尼马把目的达成了!!

这里做一下笔记吧~反正今后会时不时发神经去网上“爬”一下的。。。。 阅读全文…

分类: Python 标签: , ,