LittleCrawler – 多平台社交媒体爬虫 kobai15小时前更新关注私信000 源码简介 LittleCrawler 是一款基于 Python 3.11+ 异步架构的开源爬虫框架,专为小红书 (xhs)、闲鱼 (xhy)、知乎 (zhihu) 等社交媒体平台设计。它内置 Playwright 驱动真实浏览器,配合智能登录插件和可插拔存储接口,让开发者只需修改几行配置即可完成从数据采集到落地的全过程,被誉为爬虫界的“瑞士军刀”。 相比传统的零散脚本,LittleCrawler 将登录、反爬、存储、任务调度等共性需求抽象为标准化模块,单进程即可并发处理 50+ 浏览器上下文,内存占用稳定在 300MB 以内,真正实现了“一次抽象,随处运行”的维护理念。 核心特性 1. 异步高性能引擎 基于 Python asyncio 构建异步流水线,单机并发能力出众 实测抓取 1 万条小红书笔记仅需数分钟,内存占用始终低于 300 MB 数据流式写入存储,全程无阻塞 I/O 操作 2. 三层反检测体系 浏览器指纹随机化:自动添加 User-Agent、WebGL、Canvas 噪声,每 30 分钟重启浏览器实例 CDP 直连模式:通过 Chrome DevTools Protocol 直接连接本地浏览器,彻底绕过 WebDriver 特征检测 代理池支持:内置代理接口,可接入免费/付费代理池,随机切换出口 IP 3. 存储层“热插拔” 所有存储实现均继承 BaseStorage 抽象类,新增存储只需实现 connect()、insert()、close() 三个方法 支持六种存储后端:CSV、JSON、SQLite、MySQL、MongoDB、Excel,切换存储只需修改一行配置 SAVE_DATA_OPTION 4. 可视化 Web 操作台 前端基于 Next.js + NextUI,后端使用 FastAPI 提供 REST API 三大核心面板:登录管理(二维码/Cookie)、任务配置(平台/类型/关键词)、数据下载(实时日志 + 文件导出) 支持纯 API 模式运行,方便与现有系统集成 快速开始 环境准备 bash # 克隆仓库 git clone https://github.com/pbeenig/LittleCrawler.git cd LittleCrawler # 安装依赖(推荐使用 uv,比 pip 快 3~5 倍) uv sync # 或使用 pip pip install -r requirements.txt # 安装 Playwright 浏览器 playwright install chromium 最小配置示例 编辑 config/base_config.py,仅需四行配置即可运行: python PLATFORM = "xhs" # 平台:xhs(小红书)/xhy(闲鱼)/zhihu(知乎) KEYWORDS = "露营,咖啡" # 搜索关键词,英文逗号分隔 CRAWLER_TYPE = "search" # 爬取类型:search/detail/creator SAVE_DATA_OPTION = "json" # 存储方式:json/csv/sqlite/excel/db 启动命令 bash # 命令行模式 python main.py # Web 界面模式 cd web && npm run build uv run uvicorn api.main:app --port 8080 --reload # 访问 http://127.0.0.1:8080 💡 实战场景示例 场景目标关键配置落地技巧小红书选品监控每日抓取“露营”最新1000条笔记,计算点赞增量PLATFORM=xhs, SAVE_DATA_OPTION=sqlite添加 connect()0 字段按天分区,次日查询去重闲鱼价格预警监控“富士X100V”均价,低于4500元触发钉钉通知connect()1MongoDB 聚合管道计算日均价,调用 Webhook 推送知乎高赞备份导出“2026春运”话题下前500条回答至 Excelconnect()2Excel 生成超链接列,Cookie 登录存活期更长 项目结构速览 connect()3 使用须知 法律合规:本工具仅供学习研究使用,请遵守目标网站的 connect()4 及相关法律法规,不得用于非法数据采集。 账号安全:建议使用小号进行登录操作,避免主账号因异常行为被限制。 验证码处理:遇到滑块验证码时,框架会自动截图保存至 connect()5 目录,手动完成后将 Cookie 填入 Web 后台即可继续运行。 反爬策略:知乎反爬较严,推荐使用 Cookie 登录并启用指数退避策略(内置支持)。 温馨提示: 本文最后更新于2026-03-06 19:53:11,某些文章具有时效性,若有错误或已失效,请在下方留言或联系星空知。 © 版权声明 版权声明 1 本网站名称:星空知 2 本站永久网址:https://www.xkzhi.cn/ 3 本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长 QQ1397403557进行删除处理。 4 本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。 5 本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报 6 本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。 THE END网络源码资源分享网站源码资源分享# WP# Html# 网站# api# 源码# WEB# IP# git# 部署 喜欢就支持一下吧点赞0 分享QQ空间微博QQ好友海报分享复制链接收藏