RSS | 大飞的博客

想爬数据、订阅信息源、聚合内容？这里整理了 GitHub 上常见的开源爬虫与信息订阅工具，按类别分组，标注了是否需要登录、实现原理、可获取的内容，方便选型。爬虫框架项目语言实现原理可爬取内容是否需要登录登录方式 Stars 维护状态部署难度适用场景 Playwright TS/Python/Java 控制真实浏览器，完整JS渲染任意网页内容，含动态渲染（自定义） ❌ 不需要视目标站而定 89k 活跃低 JS渲染页面、模拟用户行为、绕过反爬 Scrapy Python Twisted异步，XPath/CSS选择器，中间件+Pipeline架构任意结构化网页数据（自定义） ❌ 不需要视目标站而定 62k 活跃中大规模结构化数据采集 Crawlee TypeScript 封装Playwright/Puppeteer/Cheerio，内置请求队列+代理轮换任意网页内容，含SPA（自定义） ❌ 不需要视目标站而定 23k 活跃低 Node.js生态爬虫，SPA网站采集社交媒体爬虫项目语言实现原理可爬取内容是否需要登录登录方式 Stars 维护状态部署难度适用场景 MediaCrawler Python Playwright控制浏览器，逆向平台API签名，异步并发帖子/视频标题、正文、图片、视频、点赞/收藏/转发数、评论（含回复）、用户信息、话题标签 ⚠️ 部分需要扫码/Cookie注入 50k 活跃中社交媒体内容+评论批量采集、舆情分析 Douyin_TikTok_Download_API Python 逆向抖音/TikTok API签名算法，FastAPI对外提供接口视频（无水印）、封面、描述、点赞/评论/分享数、作者信息、音乐信息 ⚠️ 部分需要 Cookie注入 18k 活跃低视频无水印下载，API集成 dataabc/weibo-crawler Python 请求微博移动端API，解析JSON，多种存储后端微博正文、图片、视频、发布时间、点赞/转发/评论数、用户信息、话题 ⚠️ 部分需要 Cookie注入 4.5k 较活跃低微博用户内容存档 videodl Python 逆向各平台API获取真实视频地址，FFmpeg合并视频文件（无水印）、封面图、视频标题 ⚠️ 部分需要 Cookie注入 2.1k 一般低多平台视频存档 lxSpider Python 各平台独立实现，含Requests/Selenium/Scrapy多方案各平台商品/评论/用户/内容数据（视具体案例） ⚠️ 部分需要各平台不同 2k 一般低爬虫学习参考微信公众号项目语言实现原理可爬取内容是否需要登录登录方式 Stars 维护状态部署难度适用场景 WeChatRobot C++ Windows DLL注入Hook微信进程，访问本地加密数据库聊天记录、公众号文章、联系人、群组、本地加密数据库 ✅ 需要微信客户端登录（仅Windows） 7.1k 一般极高微信数据深度采集、机器人开发 WechatSogou Python HTTP请求搜狗微信公开接口，BeautifulSoup解析公众号名称/简介/头像、文章标题/摘要/链接/发布时间 ❌ 不需要 - 6.3k 停止维护低公众号内容搜索聚合 wechat_articles_spider Python mitmproxy中间人代理拦截微信客户端流量公众号历史文章全量（标题、正文、发布时间、阅读数、点赞数、原文链接） ✅ 需要微信客户端登录+抓包 3.4k 一般高公众号历史文章全量存档 we-mp-rss Python 微信账号授权后调用公众号接口，转换RSS输出公众号文章标题、摘要、正文、发布时间、封面图，转为RSS Feed ✅ 需要微信账号授权 3.2k 活跃中将公众号纳入RSS阅读器统一订阅新闻爬虫项目语言实现原理可爬取内容是否需要登录登录方式 Stars 维护状态部署难度适用场景 newspaper3k Python HTTP请求+lxml解析正文，NLP提取摘要/关键词文章正文、标题、作者、发布时间、摘要、关键词 ❌ 不需要 - 15k 停止维护低学习参考，生产建议用4k news-please Python Scrapy驱动，自动解析RSS/Sitemap，结构化存储文章正文、标题、作者、发布时间、描述、图片、语言、来源域名 ❌ 不需要 - 2.5k 较活跃中大规模新闻数据集构建、学术研究 NewsCrawl Python Scrapy+Redis+Celery分布式，定时任务+监控面板文章标题、正文、发布时间、来源、分类 ❌ 不需要 - 671 一般高企业级舆情监控 NewsCrawler Python Playwright浏览器自动化，覆盖中外媒体文章标题、正文、发布时间、作者、来源平台 ⚠️ 部分需要 Cookie注入 417 活跃中中外媒体跨语言新闻聚合 newspaper4k Python HTTP请求+lxml解析，NLP提取，支持异步文章正文、标题、作者、发布时间、摘要、关键词、顶部图片 ❌ 不需要 - 1.1k 活跃低快速提取任意新闻正文 RSS 阅读器 / 信息聚合项目语言实现原理可爬取内容是否需要登录登录方式 Stars 维护状态部署难度适用场景 Glance Go 单二进制，定时拉取各平台API，无数据库 RSS文章、Reddit帖子、HN热帖、GitHub Release、YouTube视频、天气、股票 ❌ 不需要部分源需API Key 34k 活跃极低个人信息看板 FreshRSS PHP 定时拉取RSS/Atom feed，兼容Google Reader/Fever API RSS/Atom订阅源的文章标题、正文、发布时间、作者、链接 ❌ 不需要 - 15k 活跃中自托管RSS服务，多用户共享 Miniflux Go 轻量HTTP服务+PostgreSQL，定时抓取RSS RSS/Atom订阅源的文章标题、正文、发布时间、作者、链接、附件 ❌ 不需要 - 9.3k 活跃低极简高性能RSS，键盘流用户 RSSbrew Python 拉取RSS后过滤+调用OpenAI生成摘要，输出新Feed RSS源文章，经过滤/AI摘要后重新输出为新RSS ❌ 不需要 OpenAI API Key 287 较活跃低 RSS内容过滤与AI摘要提炼选型建议爬取国内社交媒体（小红书/抖音/微博/B站）→ MediaCrawler，覆盖最全，维护最活跃订阅微信公众号 → we-mp-rss 转成 RSS，配合 Miniflux 或 FreshRSS 统一阅读自建 RSS 服务 → 极简选 Miniflux，功能全选 FreshRSS 个人信息聚合看板 → Glance，一个 Docker 命令搞定提取任意新闻正文 → newspaper4k，3 行代码搞定自定义爬虫开发 → Python 用 Scrapy，JS 网站加 Playwright；Node.js 用 Crawlee 下载抖音/TikTok 视频 → Douyin_TikTok_Download_API，有完整 REST API