js_reverse/gooood
luzhisheng a9ac2cf223 gooood
2023-05-11 11:07:46 +08:00
..
dao gooood 2023-05-11 10:51:13 +08:00
docs gooood 2023-05-11 10:52:08 +08:00
extrator gooood 2023-05-11 10:51:13 +08:00
img gooood 2023-05-11 11:07:46 +08:00
spider gooood 2023-05-11 10:51:13 +08:00
main.py gooood 2023-05-11 10:51:13 +08:00
README.md gooood 2023-05-11 11:07:46 +08:00

案例

此网站爬虫部分简单清洗逻辑繁琐一点正文内容以后台生成html展示。

项目结构

  1. docs是存储结果目录
  2. spider是爬虫文件目录
  3. extrator是解析文件目录

解析结构 请求

几个问题点

  1. 这只是个简单案例,此项目没有测试用例,无法保证代码长期正常运行
  2. 项目信息2逻辑比较琐碎时间有限暂不处理