spider/js_reverse

mirror of https://github.com/luzhisheng/js_reverse.git synced 2025-04-23 03:09:21 +08:00

History

luzhisheng bde9b2fe55 gooood

2023-05-11 10:51:13 +08:00

..

gooood

2023-05-11 10:51:13 +08:00

gooood

2023-05-11 10:51:13 +08:00

gooood

2023-05-11 10:51:13 +08:00

gooood

2023-05-11 10:51:13 +08:00

main.py

gooood

2023-05-11 10:51:13 +08:00

README.md

gooood

2023-05-11 10:51:13 +08:00

README.md

案例

此网站爬虫部分简单，清洗逻辑繁琐一点正文内容以后台生成html展示。

项目结构

docs是存储结果目录
spider是爬虫文件目录
extrator是解析文件目录

几个问题点

这只是个简单案例，此项目没有测试用例，无法保证代码长期正常运行
项目信息2逻辑比较琐碎，时间有限，暂不处理