想爬数据、订阅信息源、聚合内容?这里整理了 GitHub 上常见的开源爬虫与信息订阅工具,按类别分组,标注了是否需要登录、实现原理、可获取的内容,方便选型。
爬虫框架#
| 项目 |
语言 |
实现原理 |
可爬取内容 |
是否需要登录 |
登录方式 |
Stars |
维护状态 |
部署难度 |
适用场景 |
| Playwright |
TS/Python/Java |
控制真实浏览器,完整JS渲染 |
任意网页内容,含动态渲染(自定义) |
❌ 不需要 |
视目标站而定 |
89k |
活跃 |
低 |
JS渲染页面、模拟用户行为、绕过反爬 |
| Scrapy |
Python |
Twisted异步,XPath/CSS选择器,中间件+Pipeline架构 |
任意结构化网页数据(自定义) |
❌ 不需要 |
视目标站而定 |
62k |
活跃 |
中 |
大规模结构化数据采集 |
| Crawlee |
TypeScript |
封装Playwright/Puppeteer/Cheerio,内置请求队列+代理轮换 |
任意网页内容,含SPA(自定义) |
❌ 不需要 |
视目标站而定 |
23k |
活跃 |
低 |
Node.js生态爬虫,SPA网站采集 |
社交媒体爬虫#
| 项目 |
语言 |
实现原理 |
可爬取内容 |
是否需要登录 |
登录方式 |
Stars |
维护状态 |
部署难度 |
适用场景 |
| MediaCrawler |
Python |
Playwright控制浏览器,逆向平台API签名,异步并发 |
帖子/视频标题、正文、图片、视频、点赞/收藏/转发数、评论(含回复)、用户信息、话题标签 |
⚠️ 部分需要 |
扫码/Cookie注入 |
50k |
活跃 |
中 |
社交媒体内容+评论批量采集、舆情分析 |
| Douyin_TikTok_Download_API |
Python |
逆向抖音/TikTok API签名算法,FastAPI对外提供接口 |
视频(无水印)、封面、描述、点赞/评论/分享数、作者信息、音乐信息 |
⚠️ 部分需要 |
Cookie注入 |
18k |
活跃 |
低 |
视频无水印下载,API集成 |
| dataabc/weibo-crawler |
Python |
请求微博移动端API,解析JSON,多种存储后端 |
微博正文、图片、视频、发布时间、点赞/转发/评论数、用户信息、话题 |
⚠️ 部分需要 |
Cookie注入 |
4.5k |
较活跃 |
低 |
微博用户内容存档 |
| videodl |
Python |
逆向各平台API获取真实视频地址,FFmpeg合并 |
视频文件(无水印)、封面图、视频标题 |
⚠️ 部分需要 |
Cookie注入 |
2.1k |
一般 |
低 |
多平台视频存档 |
| lxSpider |
Python |
各平台独立实现,含Requests/Selenium/Scrapy多方案 |
各平台商品/评论/用户/内容数据(视具体案例) |
⚠️ 部分需要 |
各平台不同 |
2k |
一般 |
低 |
爬虫学习参考 |
微信公众号#
| 项目 |
语言 |
实现原理 |
可爬取内容 |
是否需要登录 |
登录方式 |
Stars |
维护状态 |
部署难度 |
适用场景 |
| WeChatRobot |
C++ |
Windows DLL注入Hook微信进程,访问本地加密数据库 |
聊天记录、公众号文章、联系人、群组、本地加密数据库 |
✅ 需要 |
微信客户端登录(仅Windows) |
7.1k |
一般 |
极高 |
微信数据深度采集、机器人开发 |
| WechatSogou |
Python |
HTTP请求搜狗微信公开接口,BeautifulSoup解析 |
公众号名称/简介/头像、文章标题/摘要/链接/发布时间 |
❌ 不需要 |
- |
6.3k |
停止维护 |
低 |
公众号内容搜索聚合 |
| wechat_articles_spider |
Python |
mitmproxy中间人代理拦截微信客户端流量 |
公众号历史文章全量(标题、正文、发布时间、阅读数、点赞数、原文链接) |
✅ 需要 |
微信客户端登录+抓包 |
3.4k |
一般 |
高 |
公众号历史文章全量存档 |
| we-mp-rss |
Python |
微信账号授权后调用公众号接口,转换RSS输出 |
公众号文章标题、摘要、正文、发布时间、封面图,转为RSS Feed |
✅ 需要 |
微信账号授权 |
3.2k |
活跃 |
中 |
将公众号纳入RSS阅读器统一订阅 |
新闻爬虫#
| 项目 |
语言 |
实现原理 |
可爬取内容 |
是否需要登录 |
登录方式 |
Stars |
维护状态 |
部署难度 |
适用场景 |
| newspaper3k |
Python |
HTTP请求+lxml解析正文,NLP提取摘要/关键词 |
文章正文、标题、作者、发布时间、摘要、关键词 |
❌ 不需要 |
- |
15k |
停止维护 |
低 |
学习参考,生产建议用4k |
| news-please |
Python |
Scrapy驱动,自动解析RSS/Sitemap,结构化存储 |
文章正文、标题、作者、发布时间、描述、图片、语言、来源域名 |
❌ 不需要 |
- |
2.5k |
较活跃 |
中 |
大规模新闻数据集构建、学术研究 |
| NewsCrawl |
Python |
Scrapy+Redis+Celery分布式,定时任务+监控面板 |
文章标题、正文、发布时间、来源、分类 |
❌ 不需要 |
- |
671 |
一般 |
高 |
企业级舆情监控 |
| NewsCrawler |
Python |
Playwright浏览器自动化,覆盖中外媒体 |
文章标题、正文、发布时间、作者、来源平台 |
⚠️ 部分需要 |
Cookie注入 |
417 |
活跃 |
中 |
中外媒体跨语言新闻聚合 |
| newspaper4k |
Python |
HTTP请求+lxml解析,NLP提取,支持异步 |
文章正文、标题、作者、发布时间、摘要、关键词、顶部图片 |
❌ 不需要 |
- |
1.1k |
活跃 |
低 |
快速提取任意新闻正文 |
| 项目 |
语言 |
实现原理 |
可爬取内容 |
是否需要登录 |
登录方式 |
Stars |
维护状态 |
部署难度 |
适用场景 |
| Glance |
Go |
单二进制,定时拉取各平台API,无数据库 |
RSS文章、Reddit帖子、HN热帖、GitHub Release、YouTube视频、天气、股票 |
❌ 不需要 |
部分源需API Key |
34k |
活跃 |
极低 |
个人信息看板 |
| FreshRSS |
PHP |
定时拉取RSS/Atom feed,兼容Google Reader/Fever API |
RSS/Atom订阅源的文章标题、正文、发布时间、作者、链接 |
❌ 不需要 |
- |
15k |
活跃 |
中 |
自托管RSS服务,多用户共享 |
| Miniflux |
Go |
轻量HTTP服务+PostgreSQL,定时抓取RSS |
RSS/Atom订阅源的文章标题、正文、发布时间、作者、链接、附件 |
❌ 不需要 |
- |
9.3k |
活跃 |
低 |
极简高性能RSS,键盘流用户 |
| RSSbrew |
Python |
拉取RSS后过滤+调用OpenAI生成摘要,输出新Feed |
RSS源文章,经过滤/AI摘要后重新输出为新RSS |
❌ 不需要 |
OpenAI API Key |
287 |
较活跃 |
低 |
RSS内容过滤与AI摘要提炼 |
选型建议#