mirror of
https://github.com/luzhisheng/js_reverse.git
synced 2025-04-23 03:09:21 +08:00
案例
此网站爬虫部分简单,清洗逻辑繁琐一点正文内容以后台生成html展示。
项目结构
- docs是存储结果目录
- spider是爬虫文件目录
- extrator是解析文件目录
几个问题点
- 这只是个简单案例,此项目没有测试用例,无法保证代码长期正常运行
- 项目信息2逻辑比较琐碎,时间有限,暂不处理