存档

文章标签 ‘豆娘’
5月
10

豆瓣爬虫杂记

手头上有一个便宜的VPS,一直没怎么用,除了用来跑程序和VPN外。然后最近觉得没什么程序在上面跑很对不起它,就没事找事地想让它去爬点东西,但是也没想到什么好爬的,就愉快地决定让它去爬一些豆瓣的信息;

初步计划先让它爬一下豆瓣的书的信息和豆瓣用户关注被关注的关系网;这里随便写一下爬虫的杂记,作为我最近的存在感。。。

豆瓣BOOK

豆瓣的书啊,电影啊,音乐啊那些条目有一点很讨厌,就是他们的URL的编排,都是这种形式的:

http://[type].douban.com/subject/[id]/

type可以是”book”,或者”music”或者”movie”;

但是id完全没有什么规律(大概没有吧),不仅仅是说你无法从id中判断出这个条目是书还是电影还是音乐;而且就算你要找书的URL,你也不知道这些id是服从什么规律的;比如id=10000可能是一本书,但是10001可能对应的type就变成了music,也有可能是404。。。 阅读全文…

10月
30

抓取豆瓣相册图片——Mathematica版

之前写了一篇利用Scrapy去豆瓣“盗图”的文章,然后昨晚研究了一下mathematica,发现,其实它也可以做。。。当然,不能跟专业的Scrapy比,但是没有配置Scrapy环境或者懒得去搞那么复杂的东西的少年们,可以试一下Mathematica,而且mathematica因为在字符串匹配上和Python有着莫大的差距,所以一定把网页源文件爬下来后,如果有复杂的字符串操作需求,搞不好Mathematica会更强大。。但是,再说一句,这个不是专业的。。。

我们依旧以《海女》为例【顺便祭奠一下我那篇跳票了一个月的影评。。。】,首先分析网页源文件,在这之前,你要获得源文件,Mathematica有两种方法,一个是Import导入html,一个是URLFetch,但是我试了一下,两个都不怎么好使,其中Import导入的html会帮你排好版,但是排好版有什么用?而且图片的信息全部丢了,而后者URLFetch返回的就是原封不动的纯文本源代码,但是SCrapy的经验是,我们需要一个类似XPath一样的树状结构,搜了一下,Mathematica有一种变量XMLElement,他就是可以结构化源文件的东西,要怎么获得呢?嗯,还是Import,但是用XMLObject转一下~ 阅读全文…

10月
01

Scrapy抓取豆瓣相册(学习笔记)

情况是这样子的,因为前两天NHK的晨间剧《海女》完结了嘛,加之之前写《蜂蜜与四叶草》的时候说过到时要为海女专门写一篇的,于是乎,我下午就开始写啦,我写这种文章的时候总免不了去找图,然后在豆娘那里就看到了很多好图,尤其是能年犬的,所以就想把图片全部下下来,然后轮流当桌面,但是一看下面,狗眼瞎了,1500+张,于是,按照我的性格,果断就把《海女》的博文扔一边了,跑去研究怎么全部下下来好了。。。所以呢~海女的博文,我过几天再写吧。。。

前阵子一直在自学python,其实为了就是搞python(x,y)而已,而且没有搬砖需求,纯属自娱自乐。。我一开始就知道python很适合爬虫的,而且scrapy我“觊觎”很久了,准备学会python就狠狠搞一下!!今天是个机会,反正python学了好一部分了,所以就开始搞爬虫,几个小时下来,总算尼马把目的达成了!!

这里做一下笔记吧~反正今后会时不时发神经去网上“爬”一下的。。。。 阅读全文…

分类: Python 标签: , ,