luzhisheng bde9b2fe55 gooood
2023-05-11 10:51:13 +08:00
..
2023-05-11 10:51:13 +08:00
2023-05-11 10:51:13 +08:00
2023-05-11 10:51:13 +08:00
2023-05-11 10:51:13 +08:00
2023-05-11 10:51:13 +08:00
2023-05-11 10:51:13 +08:00

案例

此网站爬虫部分简单清洗逻辑繁琐一点正文内容以后台生成html展示。

项目结构

  1. docs是存储结果目录
  2. spider是爬虫文件目录
  3. extrator是解析文件目录

几个问题点

  1. 这只是个简单案例,此项目没有测试用例,无法保证代码长期正常运行
  2. 项目信息2逻辑比较琐碎时间有限暂不处理