比特之理 » Scrapy|とある東雲研究所の分所

存档

文章标签 ‘Scrapy’

2月

爬取Zero动漫下载链接的几种方法

Vespa 34 条评论

我总算发现了，我只有在想偷懒的时候才会变得很勤奋。。

ZERO动漫

~~这小标题看起来有点像软文啊！！其实真的不是啊！！~~

我一般看动画的方式，当它还在连载的时候，我就在B站上看，之后在它完结或者换季番的时候，我会选择一部分来收藏，其实虽说是收藏，更像是留着等“布教”用，在给那些不逛B站的人宣传某部动画之后可以马上拿出资源给他们，顺便拉其入坑！！

基于此，所以我一般移动硬盘里面放的也不是BD版本，就是普清版本，经过本科时的各种研究，我现在基本定下来在Zero动漫下载动画，虽然我也知道极影啊，动漫花园啊，还有天使动漫这些论坛之类的，而且我也分别有一段时间在这些地方下过，但是最后发现最常来的还是ZERO动漫，我也不怎么清楚为什么，可能是“找资源”这个过程是最省事的吧。。。毕竟一部动画就一个页面，而不像极影之类的搜一部动画可以找到各种字幕组的。。最后下下来发现是各种字幕组的大杂烩，虽然下载合集的话极影那些会比较方便~

好吧，扯远了，回到Zero动漫，作为迅雷党，一般有两个路径在Zero上找到资源：阅读全文…

分类: Python 标签: Mathematica, PHP, Python, Scrapy, 动画

10月

抓取豆瓣相册图片——Mathematica版

Vespa 5 条评论

之前写了一篇利用Scrapy去豆瓣“盗图”的文章，然后昨晚研究了一下mathematica，发现，其实它也可以做。。。当然，不能跟专业的Scrapy比，但是没有配置Scrapy环境或者懒得去搞那么复杂的东西的少年们，可以试一下Mathematica，而且mathematica因为在字符串匹配上和Python有着莫大的差距，所以一定把网页源文件爬下来后，如果有复杂的字符串操作需求，搞不好Mathematica会更强大。。但是，再说一句，这个不是专业的。。。

我们依旧以《海女》为例【顺便祭奠一下我那篇跳票了一个月的影评。。。】，首先分析网页源文件，在这之前，你要获得源文件，Mathematica有两种方法，一个是Import导入html，一个是URLFetch，但是我试了一下，两个都不怎么好使，其中Import导入的html会帮你排好版，但是排好版有什么用？而且图片的信息全部丢了，而后者URLFetch返回的就是原封不动的纯文本源代码，但是SCrapy的经验是，我们需要一个类似XPath一样的树状结构，搜了一下，Mathematica有一种变量XMLElement，他就是可以结构化源文件的东西，要怎么获得呢？嗯，还是Import，但是用XMLObject转一下~ 阅读全文…

分类: Mathematica 标签: Mathematica, Python, Scrapy, 豆娘

10月

Scrapy+Mathematica制作神奇宝贝图鉴书签

Vespa 12 条评论

话说最近不是那个神奇宝贝起源开播了么？呀呀呀呀，真是的，那个BGM,那个剧情走向，真是让人把持不住啊。。。

加上之前学Python和Scrapy，很想找个什么东西来练练手，所以就决定了题目所说的那个”企划”，事实证明，这个东西其实一天就可以解决了。。。下面就是制作出来的成果啦~

阅读全文…

分类: 黑暗科技研究标签: Mathematica, Python, Scrapy, 口袋怪兽

10月

Scrapy抓取豆瓣相册(学习笔记)

Vespa 11 条评论

情况是这样子的，因为前两天NHK的晨间剧《海女》完结了嘛，加之之前写《蜂蜜与四叶草》的时候说过到时要为海女专门写一篇的，于是乎，我下午就开始写啦，我写这种文章的时候总免不了去找图，然后在豆娘那里就看到了很多好图，尤其是能年犬的，所以就想把图片全部下下来，然后轮流当桌面，但是一看下面，狗眼瞎了，1500+张，于是，按照我的性格，果断就把《海女》的博文扔一边了，跑去研究怎么全部下下来好了。。。所以呢~海女的博文，我过几天再写吧。。。

前阵子一直在自学python，其实为了就是搞python(x,y)而已，而且没有搬砖需求，纯属自娱自乐。。我一开始就知道python很适合爬虫的，而且scrapy我“觊觎”很久了，准备学会python就狠狠搞一下！！今天是个机会，反正python学了好一部分了，所以就开始搞爬虫，几个小时下来，总算尼马把目的达成了！！

这里做一下笔记吧~反正今后会时不时发神经去网上“爬”一下的。。。。阅读全文…

分类: Python 标签: Python, Scrapy, 豆娘

存档

爬取Zero动漫下载链接的几种方法

ZERO动漫

抓取豆瓣相册图片——Mathematica版

Scrapy+Mathematica制作神奇宝贝图鉴书签

Scrapy抓取豆瓣相册(学习笔记)

Categories

公告

存档

爬取Zero动漫下载链接的几种方法

ZERO动漫

抓取豆瓣相册图片——Mathematica版

Scrapy+Mathematica制作神奇宝贝图鉴书签

Scrapy抓取豆瓣相册(学习笔记)

Tag

Categories

公告