GitHub 开源爬虫与信息订阅工具全览
想爬数据、订阅信息源、聚合内容?这里整理了 GitHub 上常见的开源爬虫与信息订阅工具,按类别分组,标注了是否需要登录、实现原理、可获取的内容,方便选型。 爬虫框架 项目 语言 实现原理 可爬取内容 是否需要登录 登录方式 Stars 维护状态 部署难度 适用场景 Playwright TS/Python/Java 控制真实浏览器,完整JS渲染 任意网页内容,含动态渲染(自定义) ❌ 不需要 视目标站而定 89k 活跃 低 JS渲染页面、模拟用户行为、绕过反爬 Scrapy Python Twisted异步,XPath/CSS选择器,中间件+Pipeline架构 任意结构化网页数据(自定义) ❌ 不需要 视目标站而定 62k 活跃 中 大规模结构化数据采集 Crawlee TypeScript 封装Playwright/Puppeteer/Cheerio,内置请求队列+代理轮换 任意网页内容,含SPA(自定义) ❌ 不需要 视目标站而定 23k 活跃 低 Node.js生态爬虫,SPA网站采集 社交媒体爬虫 项目 语言 实现原理 可爬取内容 是否需要登录 登录方式 Stars 维护状态 部署难度 适用场景 MediaCrawler Python Playwright控制浏览器,逆向平台API签名,异步并发 帖子/视频标题、正文、图片、视频、点赞/收藏/转发数、评论(含回复)、用户信息、话题标签 ⚠️ 部分需要 扫码/Cookie注入 50k 活跃 中 社交媒体内容+评论批量采集、舆情分析 Douyin_TikTok_Download_API Python 逆向抖音/TikTok API签名算法,FastAPI对外提供接口 视频(无水印)、封面、描述、点赞/评论/分享数、作者信息、音乐信息 ⚠️ 部分需要 Cookie注入 18k 活跃 低 视频无水印下载,API集成 dataabc/weibo-crawler Python 请求微博移动端API,解析JSON,多种存储后端 微博正文、图片、视频、发布时间、点赞/转发/评论数、用户信息、话题 ⚠️ 部分需要 Cookie注入 4.5k 较活跃 低 微博用户内容存档 videodl Python 逆向各平台API获取真实视频地址,FFmpeg合并 视频文件(无水印)、封面图、视频标题 ⚠️ 部分需要 Cookie注入 2.1k 一般 低 多平台视频存档 lxSpider Python 各平台独立实现,含Requests/Selenium/Scrapy多方案 各平台商品/评论/用户/内容数据(视具体案例) ⚠️ 部分需要 各平台不同 2k 一般 低 爬虫学习参考 微信公众号 项目 语言 实现原理 可爬取内容 是否需要登录 登录方式 Stars 维护状态 部署难度 适用场景 WeChatRobot C++ Windows DLL注入Hook微信进程,访问本地加密数据库 聊天记录、公众号文章、联系人、群组、本地加密数据库 ✅ 需要 微信客户端登录(仅Windows) 7.1k 一般 极高 微信数据深度采集、机器人开发 WechatSogou Python HTTP请求搜狗微信公开接口,BeautifulSoup解析 公众号名称/简介/头像、文章标题/摘要/链接/发布时间 ❌ 不需要 - 6.3k 停止维护 低 公众号内容搜索聚合 wechat_articles_spider Python mitmproxy中间人代理拦截微信客户端流量 公众号历史文章全量(标题、正文、发布时间、阅读数、点赞数、原文链接) ✅ 需要 微信客户端登录+抓包 3.4k 一般 高 公众号历史文章全量存档 we-mp-rss Python 微信账号授权后调用公众号接口,转换RSS输出 公众号文章标题、摘要、正文、发布时间、封面图,转为RSS Feed ✅ 需要 微信账号授权 3.2k 活跃 中 将公众号纳入RSS阅读器统一订阅 新闻爬虫 项目 语言 实现原理 可爬取内容 是否需要登录 登录方式 Stars 维护状态 部署难度 适用场景 newspaper3k Python HTTP请求+lxml解析正文,NLP提取摘要/关键词 文章正文、标题、作者、发布时间、摘要、关键词 ❌ 不需要 - 15k 停止维护 低 学习参考,生产建议用4k news-please Python Scrapy驱动,自动解析RSS/Sitemap,结构化存储 文章正文、标题、作者、发布时间、描述、图片、语言、来源域名 ❌ 不需要 - 2.5k 较活跃 中 大规模新闻数据集构建、学术研究 NewsCrawl Python Scrapy+Redis+Celery分布式,定时任务+监控面板 文章标题、正文、发布时间、来源、分类 ❌ 不需要 - 671 一般 高 企业级舆情监控 NewsCrawler Python Playwright浏览器自动化,覆盖中外媒体 文章标题、正文、发布时间、作者、来源平台 ⚠️ 部分需要 Cookie注入 417 活跃 中 中外媒体跨语言新闻聚合 newspaper4k Python HTTP请求+lxml解析,NLP提取,支持异步 文章正文、标题、作者、发布时间、摘要、关键词、顶部图片 ❌ 不需要 - 1.1k 活跃 低 快速提取任意新闻正文 RSS 阅读器 / 信息聚合 项目 语言 实现原理 可爬取内容 是否需要登录 登录方式 Stars 维护状态 部署难度 适用场景 Glance Go 单二进制,定时拉取各平台API,无数据库 RSS文章、Reddit帖子、HN热帖、GitHub Release、YouTube视频、天气、股票 ❌ 不需要 部分源需API Key 34k 活跃 极低 个人信息看板 FreshRSS PHP 定时拉取RSS/Atom feed,兼容Google Reader/Fever API RSS/Atom订阅源的文章标题、正文、发布时间、作者、链接 ❌ 不需要 - 15k 活跃 中 自托管RSS服务,多用户共享 Miniflux Go 轻量HTTP服务+PostgreSQL,定时抓取RSS RSS/Atom订阅源的文章标题、正文、发布时间、作者、链接、附件 ❌ 不需要 - 9.3k 活跃 低 极简高性能RSS,键盘流用户 RSSbrew Python 拉取RSS后过滤+调用OpenAI生成摘要,输出新Feed RSS源文章,经过滤/AI摘要后重新输出为新RSS ❌ 不需要 OpenAI API Key 287 较活跃 低 RSS内容过滤与AI摘要提炼 选型建议 爬取国内社交媒体(小红书/抖音/微博/B站)→ MediaCrawler,覆盖最全,维护最活跃 订阅微信公众号 → we-mp-rss 转成 RSS,配合 Miniflux 或 FreshRSS 统一阅读 自建 RSS 服务 → 极简选 Miniflux,功能全选 FreshRSS 个人信息聚合看板 → Glance,一个 Docker 命令搞定 提取任意新闻正文 → newspaper4k,3 行代码搞定 自定义爬虫开发 → Python 用 Scrapy,JS 网站加 Playwright;Node.js 用 Crawlee 下载抖音/TikTok 视频 → Douyin_TikTok_Download_API,有完整 REST API