Python 小工具《豆瓣租房收集器》
date
Aug 9, 2019
slug
python-xiao-zhu-shou-dou-ban-zu-fang-shou-ji-qi-ecf05aee
status
Published
tags
happy hacking
经验分享
summary
日常羡慕蜗牛
type
Post
【版本记录】
- 2019-08-20 版本号0.0.4 :增加 “再来一次” 功能,如果没有搜索到合适的房源,可以直接重试,调整关键词,再来一次;
- 2019-08-13 版本号0.0.3 :增加 “强力搜索” 特性,同一标题同时符合多关键词才会在结果中显示;
- 2019-08-09 版本号0.0.2 :支持一次搜索多个关键词;
【需求背景】
来到上海,从未停止对中介的斗智斗勇,找到满意又便宜的房子简直是偶像剧才出现的桥段。豆瓣小组是跳过中介,节约中介费的主要手段,即使现今小组已经水化严重,但仍然是年轻人在选择平台时会考虑的方式,毕竟昂贵的中介费摆在那里。曾经出现的“豆瓣租房”小程序,让我眼前一亮。但很可惜,仅仅几个月就暂停服务。
就上海来看,豆瓣相关的租房小组就有几十个,发帖量也是惊人。如何在海量帖子里找到自己温暖的家,以及尽可能高效率得完成这项工作,是需要解决的问题。
【解决方案】
首先,我们解决信息筛选的问题。过滤多余信息,意味着花更少时间获得所需要的信息,愉悦身心又低碳环保;
其次,提升信息筛选的效率、质量。多关键词或许是个方法;
再次,如何让信息找我,这其实也是《即刻》的雏形。
在 Github 找到豆瓣爬虫的基础版本,我是在该版本的基础上进行修改和调整,使其支持多关键词搜索。
运行该程序需要你的电脑安装 Python 及其相关组件,并将你想收集的豆瓣小组编号填入程序文件即可,运行过程中会要求输入关键词、搜索页面数量,其他的就交给💻完成吧。
【其他】
聪明的你或许已经发现,这款爬虫不仅仅可以用来收集租房信息。是的,只要是想获取特定小组的特定关键词帖子,都可以通过修改程序达到目的。这,就是 Python 等易入门程序语言的特点。
【迭代方向】
- “强搜索”功能,如果我想搜索 “杨浦”、“一室户”同时出现的帖子,该怎么办?(已完成)
- 小组主题 支持搜索(产品洁癖)
- 进阶功能:定时轮询,结果推送
相关链接:参考 github 相关项目