GitHub 开源爬虫与信息订阅工具全览

May 26, 2026 · 2 min · 大飞

Table of Contents

爬虫框架
社交媒体爬虫
微信公众号
新闻爬虫
RSS 阅读器 / 信息聚合
选型建议

想爬数据、订阅信息源、聚合内容？这里整理了 GitHub 上常见的开源爬虫与信息订阅工具，按类别分组，标注了是否需要登录、实现原理、可获取的内容，方便选型。

爬虫框架

项目	语言	实现原理	可爬取内容	是否需要登录	登录方式	Stars	维护状态	部署难度	适用场景
Playwright	TS/Python/Java	控制真实浏览器，完整JS渲染	任意网页内容，含动态渲染（自定义）	❌ 不需要	视目标站而定	89k	活跃	低	JS渲染页面、模拟用户行为、绕过反爬
Scrapy	Python	Twisted异步，XPath/CSS选择器，中间件+Pipeline架构	任意结构化网页数据（自定义）	❌ 不需要	视目标站而定	62k	活跃	中	大规模结构化数据采集
Crawlee	TypeScript	封装Playwright/Puppeteer/Cheerio，内置请求队列+代理轮换	任意网页内容，含SPA（自定义）	❌ 不需要	视目标站而定	23k	活跃	低	Node.js生态爬虫，SPA网站采集

社交媒体爬虫

项目	语言	实现原理	可爬取内容	是否需要登录	登录方式	Stars	维护状态	部署难度	适用场景
MediaCrawler	Python	Playwright控制浏览器，逆向平台API签名，异步并发	帖子/视频标题、正文、图片、视频、点赞/收藏/转发数、评论（含回复）、用户信息、话题标签	⚠️ 部分需要	扫码/Cookie注入	50k	活跃	中	社交媒体内容+评论批量采集、舆情分析
Douyin_TikTok_Download_API	Python	逆向抖音/TikTok API签名算法，FastAPI对外提供接口	视频（无水印）、封面、描述、点赞/评论/分享数、作者信息、音乐信息	⚠️ 部分需要	Cookie注入	18k	活跃	低	视频无水印下载，API集成
dataabc/weibo-crawler	Python	请求微博移动端API，解析JSON，多种存储后端	微博正文、图片、视频、发布时间、点赞/转发/评论数、用户信息、话题	⚠️ 部分需要	Cookie注入	4.5k	较活跃	低	微博用户内容存档
videodl	Python	逆向各平台API获取真实视频地址，FFmpeg合并	视频文件（无水印）、封面图、视频标题	⚠️ 部分需要	Cookie注入	2.1k	一般	低	多平台视频存档
lxSpider	Python	各平台独立实现，含Requests/Selenium/Scrapy多方案	各平台商品/评论/用户/内容数据（视具体案例）	⚠️ 部分需要	各平台不同	2k	一般	低	爬虫学习参考

微信公众号

项目	语言	实现原理	可爬取内容	是否需要登录	登录方式	Stars	维护状态	部署难度	适用场景
WeChatRobot	C++	Windows DLL注入Hook微信进程，访问本地加密数据库	聊天记录、公众号文章、联系人、群组、本地加密数据库	✅ 需要	微信客户端登录（仅Windows）	7.1k	一般	极高	微信数据深度采集、机器人开发
WechatSogou	Python	HTTP请求搜狗微信公开接口，BeautifulSoup解析	公众号名称/简介/头像、文章标题/摘要/链接/发布时间	❌ 不需要	-	6.3k	停止维护	低	公众号内容搜索聚合
wechat_articles_spider	Python	mitmproxy中间人代理拦截微信客户端流量	公众号历史文章全量（标题、正文、发布时间、阅读数、点赞数、原文链接）	✅ 需要	微信客户端登录+抓包	3.4k	一般	高	公众号历史文章全量存档
we-mp-rss	Python	微信账号授权后调用公众号接口，转换RSS输出	公众号文章标题、摘要、正文、发布时间、封面图，转为RSS Feed	✅ 需要	微信账号授权	3.2k	活跃	中	将公众号纳入RSS阅读器统一订阅

新闻爬虫

项目	语言	实现原理	可爬取内容	是否需要登录	登录方式	Stars	维护状态	部署难度	适用场景
newspaper3k	Python	HTTP请求+lxml解析正文，NLP提取摘要/关键词	文章正文、标题、作者、发布时间、摘要、关键词	❌ 不需要	-	15k	停止维护	低	学习参考，生产建议用4k
news-please	Python	Scrapy驱动，自动解析RSS/Sitemap，结构化存储	文章正文、标题、作者、发布时间、描述、图片、语言、来源域名	❌ 不需要	-	2.5k	较活跃	中	大规模新闻数据集构建、学术研究
NewsCrawl	Python	Scrapy+Redis+Celery分布式，定时任务+监控面板	文章标题、正文、发布时间、来源、分类	❌ 不需要	-	671	一般	高	企业级舆情监控
NewsCrawler	Python	Playwright浏览器自动化，覆盖中外媒体	文章标题、正文、发布时间、作者、来源平台	⚠️ 部分需要	Cookie注入	417	活跃	中	中外媒体跨语言新闻聚合
newspaper4k	Python	HTTP请求+lxml解析，NLP提取，支持异步	文章正文、标题、作者、发布时间、摘要、关键词、顶部图片	❌ 不需要	-	1.1k	活跃	低	快速提取任意新闻正文

RSS 阅读器 / 信息聚合

项目	语言	实现原理	可爬取内容	是否需要登录	登录方式	Stars	维护状态	部署难度	适用场景
Glance	Go	单二进制，定时拉取各平台API，无数据库	RSS文章、Reddit帖子、HN热帖、GitHub Release、YouTube视频、天气、股票	❌ 不需要	部分源需API Key	34k	活跃	极低	个人信息看板
FreshRSS	PHP	定时拉取RSS/Atom feed，兼容Google Reader/Fever API	RSS/Atom订阅源的文章标题、正文、发布时间、作者、链接	❌ 不需要	-	15k	活跃	中	自托管RSS服务，多用户共享
Miniflux	Go	轻量HTTP服务+PostgreSQL，定时抓取RSS	RSS/Atom订阅源的文章标题、正文、发布时间、作者、链接、附件	❌ 不需要	-	9.3k	活跃	低	极简高性能RSS，键盘流用户
RSSbrew	Python	拉取RSS后过滤+调用OpenAI生成摘要，输出新Feed	RSS源文章，经过滤/AI摘要后重新输出为新RSS	❌ 不需要	OpenAI API Key	287	较活跃	低	RSS内容过滤与AI摘要提炼

选型建议

爬取国内社交媒体（小红书/抖音/微博/B站）→ MediaCrawler，覆盖最全，维护最活跃
订阅微信公众号 → we-mp-rss 转成 RSS，配合 Miniflux 或 FreshRSS 统一阅读
自建 RSS 服务 → 极简选 Miniflux，功能全选 FreshRSS
个人信息聚合看板 → Glance，一个 Docker 命令搞定
提取任意新闻正文 → newspaper4k，3 行代码搞定
自定义爬虫开发 → Python 用 Scrapy，JS 网站加 Playwright；Node.js 用 Crawlee
下载抖音/TikTok 视频 → Douyin_TikTok_Download_API，有完整 REST API

京ICP备14031575号-3