信息获取工具 on 大飞的博客

信息获取工具 on 大飞的博客 https://www.dafei.me/series/%E4%BF%A1%E6%81%AF%E8%8E%B7%E5%8F%96%E5%B7%A5%E5%85%B7/ Recent content in 信息获取工具 on 大飞的博客 Hugo zh-cn Tue, 26 May 2026 10:00:00 +0000 GitHub 开源爬虫与信息订阅工具全览 https://www.dafei.me/posts/info-tools-01-crawlers/ Tue, 26 May 2026 10:00:00 +0000 https://www.dafei.me/posts/info-tools-01-crawlers/ <p>想爬数据、订阅信息源、聚合内容？这里整理了 GitHub 上常见的开源爬虫与信息订阅工具，按类别分组，标注了是否需要登录、实现原理、可获取的内容，方便选型。</p> <hr> <h2 id="爬虫框架">爬虫框架</h2> <table> <thead> <tr> <th>项目</th> <th>语言</th> <th>实现原理</th> <th>可爬取内容</th> <th>是否需要登录</th> <th>登录方式</th> <th>Stars</th> <th>维护状态</th> <th>部署难度</th> <th>适用场景</th> </tr> </thead> <tbody> <tr> <td><a href="https://github.com/microsoft/playwright">Playwright</a></td> <td>TS/Python/Java</td> <td>控制真实浏览器，完整JS渲染</td> <td>任意网页内容，含动态渲染（自定义）</td> <td>❌ 不需要</td> <td>视目标站而定</td> <td>89k</td> <td>活跃</td> <td>低</td> <td>JS渲染页面、模拟用户行为、绕过反爬</td> </tr> <tr> <td><a href="https://github.com/scrapy/scrapy">Scrapy</a></td> <td>Python</td> <td>Twisted异步，XPath/CSS选择器，中间件+Pipeline架构</td> <td>任意结构化网页数据（自定义）</td> <td>❌ 不需要</td> <td>视目标站而定</td> <td>62k</td> <td>活跃</td> <td>中</td> <td>大规模结构化数据采集</td> </tr> <tr> <td><a href="https://github.com/apify/crawlee">Crawlee</a></td> <td>TypeScript</td> <td>封装Playwright/Puppeteer/Cheerio，内置请求队列+代理轮换</td> <td>任意网页内容，含SPA（自定义）</td> <td>❌ 不需要</td> <td>视目标站而定</td> <td>23k</td> <td>活跃</td> <td>低</td> <td>Node.js生态爬虫，SPA网站采集</td> </tr> </tbody> </table> <hr> <h2 id="社交媒体爬虫">社交媒体爬虫</h2> <table> <thead> <tr> <th>项目</th> <th>语言</th> <th>实现原理</th> <th>可爬取内容</th> <th>是否需要登录</th> <th>登录方式</th> <th>Stars</th> <th>维护状态</th> <th>部署难度</th> <th>适用场景</th> </tr> </thead> <tbody> <tr> <td><a href="https://github.com/NanmiCoder/MediaCrawler">MediaCrawler</a></td> <td>Python</td> <td>Playwright控制浏览器，逆向平台API签名，异步并发</td> <td>帖子/视频标题、正文、图片、视频、点赞/收藏/转发数、评论（含回复）、用户信息、话题标签</td> <td>⚠️ 部分需要</td> <td>扫码/Cookie注入</td> <td>50k</td> <td>活跃</td> <td>中</td> <td>社交媒体内容+评论批量采集、舆情分析</td> </tr> <tr> <td><a href="https://github.com/Evil0ctal/Douyin_TikTok_Download_API">Douyin_TikTok_Download_API</a></td> <td>Python</td> <td>逆向抖音/TikTok API签名算法，FastAPI对外提供接口</td> <td>视频（无水印）、封面、描述、点赞/评论/分享数、作者信息、音乐信息</td> <td>⚠️ 部分需要</td> <td>Cookie注入</td> <td>18k</td> <td>活跃</td> <td>低</td> <td>视频无水印下载，API集成</td> </tr> <tr> <td><a href="https://github.com/dataabc/weibo-crawler">dataabc/weibo-crawler</a></td> <td>Python</td> <td>请求微博移动端API，解析JSON，多种存储后端</td> <td>微博正文、图片、视频、发布时间、点赞/转发/评论数、用户信息、话题</td> <td>⚠️ 部分需要</td> <td>Cookie注入</td> <td>4.5k</td> <td>较活跃</td> <td>低</td> <td>微博用户内容存档</td> </tr> <tr> <td><a href="https://github.com/CharlesPikachu/videodl">videodl</a></td> <td>Python</td> <td>逆向各平台API获取真实视频地址，FFmpeg合并</td> <td>视频文件（无水印）、封面图、视频标题</td> <td>⚠️ 部分需要</td> <td>Cookie注入</td> <td>2.1k</td> <td>一般</td> <td>低</td> <td>多平台视频存档</td> </tr> <tr> <td><a href="https://github.com/lixi5338619/lxSpider">lxSpider</a></td> <td>Python</td> <td>各平台独立实现，含Requests/Selenium/Scrapy多方案</td> <td>各平台商品/评论/用户/内容数据（视具体案例）</td> <td>⚠️ 部分需要</td> <td>各平台不同</td> <td>2k</td> <td>一般</td> <td>低</td> <td>爬虫学习参考</td> </tr> </tbody> </table> <hr> <h2 id="微信公众号">微信公众号</h2> <table> <thead> <tr> <th>项目</th> <th>语言</th> <th>实现原理</th> <th>可爬取内容</th> <th>是否需要登录</th> <th>登录方式</th> <th>Stars</th> <th>维护状态</th> <th>部署难度</th> <th>适用场景</th> </tr> </thead> <tbody> <tr> <td><a href="https://github.com/TonyChen56/WeChatRobot">WeChatRobot</a></td> <td>C++</td> <td>Windows DLL注入Hook微信进程，访问本地加密数据库</td> <td>聊天记录、公众号文章、联系人、群组、本地加密数据库</td> <td>✅ 需要</td> <td>微信客户端登录（仅Windows）</td> <td>7.1k</td> <td>一般</td> <td>极高</td> <td>微信数据深度采集、机器人开发</td> </tr> <tr> <td><a href="https://github.com/chyroc/WechatSogou">WechatSogou</a></td> <td>Python</td> <td>HTTP请求搜狗微信公开接口，BeautifulSoup解析</td> <td>公众号名称/简介/头像、文章标题/摘要/链接/发布时间</td> <td>❌ 不需要</td> <td>-</td> <td>6.3k</td> <td>停止维护</td> <td>低</td> <td>公众号内容搜索聚合</td> </tr> <tr> <td><a href="https://github.com/wnma3mz/wechat_articles_spider">wechat_articles_spider</a></td> <td>Python</td> <td>mitmproxy中间人代理拦截微信客户端流量</td> <td>公众号历史文章全量（标题、正文、发布时间、阅读数、点赞数、原文链接）</td> <td>✅ 需要</td> <td>微信客户端登录+抓包</td> <td>3.4k</td> <td>一般</td> <td>高</td> <td>公众号历史文章全量存档</td> </tr> <tr> <td><a href="https://github.com/rachelos/we-mp-rss">we-mp-rss</a></td> <td>Python</td> <td>微信账号授权后调用公众号接口，转换RSS输出</td> <td>公众号文章标题、摘要、正文、发布时间、封面图，转为RSS Feed</td> <td>✅ 需要</td> <td>微信账号授权</td> <td>3.2k</td> <td>活跃</td> <td>中</td> <td>将公众号纳入RSS阅读器统一订阅</td> </tr> </tbody> </table> <hr> <h2 id="新闻爬虫">新闻爬虫</h2> <table> <thead> <tr> <th>项目</th> <th>语言</th> <th>实现原理</th> <th>可爬取内容</th> <th>是否需要登录</th> <th>登录方式</th> <th>Stars</th> <th>维护状态</th> <th>部署难度</th> <th>适用场景</th> </tr> </thead> <tbody> <tr> <td><a href="https://github.com/codelucas/newspaper">newspaper3k</a></td> <td>Python</td> <td>HTTP请求+lxml解析正文，NLP提取摘要/关键词</td> <td>文章正文、标题、作者、发布时间、摘要、关键词</td> <td>❌ 不需要</td> <td>-</td> <td>15k</td> <td>停止维护</td> <td>低</td> <td>学习参考，生产建议用4k</td> </tr> <tr> <td><a href="https://github.com/fhamborg/news-please">news-please</a></td> <td>Python</td> <td>Scrapy驱动，自动解析RSS/Sitemap，结构化存储</td> <td>文章正文、标题、作者、发布时间、描述、图片、语言、来源域名</td> <td>❌ 不需要</td> <td>-</td> <td>2.5k</td> <td>较活跃</td> <td>中</td> <td>大规模新闻数据集构建、学术研究</td> </tr> <tr> <td><a href="https://github.com/casual-silva/NewsCrawl">NewsCrawl</a></td> <td>Python</td> <td>Scrapy+Redis+Celery分布式，定时任务+监控面板</td> <td>文章标题、正文、发布时间、来源、分类</td> <td>❌ 不需要</td> <td>-</td> <td>671</td> <td>一般</td> <td>高</td> <td>企业级舆情监控</td> </tr> <tr> <td><a href="https://github.com/NanmiCoder/NewsCrawler">NewsCrawler</a></td> <td>Python</td> <td>Playwright浏览器自动化，覆盖中外媒体</td> <td>文章标题、正文、发布时间、作者、来源平台</td> <td>⚠️ 部分需要</td> <td>Cookie注入</td> <td>417</td> <td>活跃</td> <td>中</td> <td>中外媒体跨语言新闻聚合</td> </tr> <tr> <td><a href="https://github.com/AndyTheFactory/newspaper4k">newspaper4k</a></td> <td>Python</td> <td>HTTP请求+lxml解析，NLP提取，支持异步</td> <td>文章正文、标题、作者、发布时间、摘要、关键词、顶部图片</td> <td>❌ 不需要</td> <td>-</td> <td>1.1k</td> <td>活跃</td> <td>低</td> <td>快速提取任意新闻正文</td> </tr> </tbody> </table> <hr> <h2 id="rss-阅读器--信息聚合">RSS 阅读器 / 信息聚合</h2> <table> <thead> <tr> <th>项目</th> <th>语言</th> <th>实现原理</th> <th>可爬取内容</th> <th>是否需要登录</th> <th>登录方式</th> <th>Stars</th> <th>维护状态</th> <th>部署难度</th> <th>适用场景</th> </tr> </thead> <tbody> <tr> <td><a href="https://github.com/glanceapp/glance">Glance</a></td> <td>Go</td> <td>单二进制，定时拉取各平台API，无数据库</td> <td>RSS文章、Reddit帖子、HN热帖、GitHub Release、YouTube视频、天气、股票</td> <td>❌ 不需要</td> <td>部分源需API Key</td> <td>34k</td> <td>活跃</td> <td>极低</td> <td>个人信息看板</td> </tr> <tr> <td><a href="https://github.com/FreshRSS/FreshRSS">FreshRSS</a></td> <td>PHP</td> <td>定时拉取RSS/Atom feed，兼容Google Reader/Fever API</td> <td>RSS/Atom订阅源的文章标题、正文、发布时间、作者、链接</td> <td>❌ 不需要</td> <td>-</td> <td>15k</td> <td>活跃</td> <td>中</td> <td>自托管RSS服务，多用户共享</td> </tr> <tr> <td><a href="https://github.com/miniflux/v2">Miniflux</a></td> <td>Go</td> <td>轻量HTTP服务+PostgreSQL，定时抓取RSS</td> <td>RSS/Atom订阅源的文章标题、正文、发布时间、作者、链接、附件</td> <td>❌ 不需要</td> <td>-</td> <td>9.3k</td> <td>活跃</td> <td>低</td> <td>极简高性能RSS，键盘流用户</td> </tr> <tr> <td><a href="https://github.com/yinan-c/RSSbrew">RSSbrew</a></td> <td>Python</td> <td>拉取RSS后过滤+调用OpenAI生成摘要，输出新Feed</td> <td>RSS源文章，经过滤/AI摘要后重新输出为新RSS</td> <td>❌ 不需要</td> <td>OpenAI API Key</td> <td>287</td> <td>较活跃</td> <td>低</td> <td>RSS内容过滤与AI摘要提炼</td> </tr> </tbody> </table> <hr> <h2 id="选型建议">选型建议</h2> <ul> <li><strong>爬取国内社交媒体</strong>（小红书/抖音/微博/B站）→ <a href="https://github.com/NanmiCoder/MediaCrawler">MediaCrawler</a>，覆盖最全，维护最活跃</li> <li><strong>订阅微信公众号</strong> → <a href="https://github.com/rachelos/we-mp-rss">we-mp-rss</a> 转成 RSS，配合 Miniflux 或 FreshRSS 统一阅读</li> <li><strong>自建 RSS 服务</strong> → 极简选 <a href="https://github.com/miniflux/v2">Miniflux</a>，功能全选 <a href="https://github.com/FreshRSS/FreshRSS">FreshRSS</a></li> <li><strong>个人信息聚合看板</strong> → <a href="https://github.com/glanceapp/glance">Glance</a>，一个 Docker 命令搞定</li> <li><strong>提取任意新闻正文</strong> → <a href="https://github.com/AndyTheFactory/newspaper4k">newspaper4k</a>，3 行代码搞定</li> <li><strong>自定义爬虫开发</strong> → Python 用 <a href="https://github.com/scrapy/scrapy">Scrapy</a>，JS 网站加 <a href="https://github.com/microsoft/playwright">Playwright</a>；Node.js 用 <a href="https://github.com/apify/crawlee">Crawlee</a></li> <li><strong>下载抖音/TikTok 视频</strong> → <a href="https://github.com/Evil0ctal/Douyin_TikTok_Download_API">Douyin_TikTok_Download_API</a>，有完整 REST API</li> </ul>