爬取学习
Scrapy的优点
- 高效:Scrapy使用Twisted事件驱动框架,可以同时处理数千个并发请求。
- 可扩展:Scrapy提供了丰富的扩展接口,可以通过编写自定义的中间件来扩展其功能。
- 灵活:Scrapy支持多种数据格式的爬取和处理,包括HTML、XML、JSON等。
- 易于使用:Scrapy提供了丰富的文档和示例,可以快速入门。
下面是scrapy 入门简单案例
# 其他文件就不放上来了,下面是数据处理部分
class SMainPipeline:
def __init__(self):
self.f = open('data.txt', 'w+', encoding='utf-8')
def process_item(self, item, spider):
title = item['title']
self.f.write(f'{title}\n')
return item
def close_spider(self, spider):
self.f.close()
print('文件写入完成')
第1章 选妻,还是参军?
第2章 我全都要
第3章 三个人
第4章 遭遇劫匪
第5章 剿匪
第6章 手腕强硬
第7章 出手阔绰
第8章 齐人之福不好享
第9章 腹黑,黑风寨
第10章 狩猎开始
<<—展开全部章节—>>
第499章 祸从口出,惊天爆炸
第500章 狮子大开口
第501章 互相试探,林凤娇病危
第502章 无药可救,参观厂房
第503章 疯狂试探,林云的家底
第504章 军火生意,林家之怒
第505章 愚蠢女人,罪有应得
第506章 全是算计,心狠手辣
第507章 五王爷权术,天塌不下来!
由于管道限制,下面也是和上面一样
第11章 俘获人心上
第12章 俘获人心下
第13章 巾帼不让须眉
第14章 立一个小目标
第15章 收集粪便
第16章 提炼硝石
第17章 黑火药威力
第18章 暴露野心
感觉这效果和re,beautifulsoup,xpath一样