<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>信息获取工具 on 大飞的博客</title>
    <link>https://www.dafei.me/series/%E4%BF%A1%E6%81%AF%E8%8E%B7%E5%8F%96%E5%B7%A5%E5%85%B7/</link>
    <description>Recent content in 信息获取工具 on 大飞的博客</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <lastBuildDate>Tue, 26 May 2026 10:00:00 +0000</lastBuildDate>
    <atom:link href="https://www.dafei.me/series/%E4%BF%A1%E6%81%AF%E8%8E%B7%E5%8F%96%E5%B7%A5%E5%85%B7/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>GitHub 开源爬虫与信息订阅工具全览</title>
      <link>https://www.dafei.me/posts/info-tools-01-crawlers/</link>
      <pubDate>Tue, 26 May 2026 10:00:00 +0000</pubDate>
      <guid>https://www.dafei.me/posts/info-tools-01-crawlers/</guid>
      <description>&lt;p&gt;想爬数据、订阅信息源、聚合内容？这里整理了 GitHub 上常见的开源爬虫与信息订阅工具，按类别分组，标注了是否需要登录、实现原理、可获取的内容，方便选型。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;爬虫框架&#34;&gt;爬虫框架&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;项目&lt;/th&gt;
          &lt;th&gt;语言&lt;/th&gt;
          &lt;th&gt;实现原理&lt;/th&gt;
          &lt;th&gt;可爬取内容&lt;/th&gt;
          &lt;th&gt;是否需要登录&lt;/th&gt;
          &lt;th&gt;登录方式&lt;/th&gt;
          &lt;th&gt;Stars&lt;/th&gt;
          &lt;th&gt;维护状态&lt;/th&gt;
          &lt;th&gt;部署难度&lt;/th&gt;
          &lt;th&gt;适用场景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/microsoft/playwright&#34;&gt;Playwright&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;TS/Python/Java&lt;/td&gt;
          &lt;td&gt;控制真实浏览器，完整JS渲染&lt;/td&gt;
          &lt;td&gt;任意网页内容，含动态渲染（自定义）&lt;/td&gt;
          &lt;td&gt;❌ 不需要&lt;/td&gt;
          &lt;td&gt;视目标站而定&lt;/td&gt;
          &lt;td&gt;89k&lt;/td&gt;
          &lt;td&gt;活跃&lt;/td&gt;
          &lt;td&gt;低&lt;/td&gt;
          &lt;td&gt;JS渲染页面、模拟用户行为、绕过反爬&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/scrapy/scrapy&#34;&gt;Scrapy&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;Python&lt;/td&gt;
          &lt;td&gt;Twisted异步，XPath/CSS选择器，中间件+Pipeline架构&lt;/td&gt;
          &lt;td&gt;任意结构化网页数据（自定义）&lt;/td&gt;
          &lt;td&gt;❌ 不需要&lt;/td&gt;
          &lt;td&gt;视目标站而定&lt;/td&gt;
          &lt;td&gt;62k&lt;/td&gt;
          &lt;td&gt;活跃&lt;/td&gt;
          &lt;td&gt;中&lt;/td&gt;
          &lt;td&gt;大规模结构化数据采集&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/apify/crawlee&#34;&gt;Crawlee&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;TypeScript&lt;/td&gt;
          &lt;td&gt;封装Playwright/Puppeteer/Cheerio，内置请求队列+代理轮换&lt;/td&gt;
          &lt;td&gt;任意网页内容，含SPA（自定义）&lt;/td&gt;
          &lt;td&gt;❌ 不需要&lt;/td&gt;
          &lt;td&gt;视目标站而定&lt;/td&gt;
          &lt;td&gt;23k&lt;/td&gt;
          &lt;td&gt;活跃&lt;/td&gt;
          &lt;td&gt;低&lt;/td&gt;
          &lt;td&gt;Node.js生态爬虫，SPA网站采集&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id=&#34;社交媒体爬虫&#34;&gt;社交媒体爬虫&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;项目&lt;/th&gt;
          &lt;th&gt;语言&lt;/th&gt;
          &lt;th&gt;实现原理&lt;/th&gt;
          &lt;th&gt;可爬取内容&lt;/th&gt;
          &lt;th&gt;是否需要登录&lt;/th&gt;
          &lt;th&gt;登录方式&lt;/th&gt;
          &lt;th&gt;Stars&lt;/th&gt;
          &lt;th&gt;维护状态&lt;/th&gt;
          &lt;th&gt;部署难度&lt;/th&gt;
          &lt;th&gt;适用场景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/NanmiCoder/MediaCrawler&#34;&gt;MediaCrawler&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;Python&lt;/td&gt;
          &lt;td&gt;Playwright控制浏览器，逆向平台API签名，异步并发&lt;/td&gt;
          &lt;td&gt;帖子/视频标题、正文、图片、视频、点赞/收藏/转发数、评论（含回复）、用户信息、话题标签&lt;/td&gt;
          &lt;td&gt;⚠️ 部分需要&lt;/td&gt;
          &lt;td&gt;扫码/Cookie注入&lt;/td&gt;
          &lt;td&gt;50k&lt;/td&gt;
          &lt;td&gt;活跃&lt;/td&gt;
          &lt;td&gt;中&lt;/td&gt;
          &lt;td&gt;社交媒体内容+评论批量采集、舆情分析&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/Evil0ctal/Douyin_TikTok_Download_API&#34;&gt;Douyin_TikTok_Download_API&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;Python&lt;/td&gt;
          &lt;td&gt;逆向抖音/TikTok API签名算法，FastAPI对外提供接口&lt;/td&gt;
          &lt;td&gt;视频（无水印）、封面、描述、点赞/评论/分享数、作者信息、音乐信息&lt;/td&gt;
          &lt;td&gt;⚠️ 部分需要&lt;/td&gt;
          &lt;td&gt;Cookie注入&lt;/td&gt;
          &lt;td&gt;18k&lt;/td&gt;
          &lt;td&gt;活跃&lt;/td&gt;
          &lt;td&gt;低&lt;/td&gt;
          &lt;td&gt;视频无水印下载，API集成&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/dataabc/weibo-crawler&#34;&gt;dataabc/weibo-crawler&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;Python&lt;/td&gt;
          &lt;td&gt;请求微博移动端API，解析JSON，多种存储后端&lt;/td&gt;
          &lt;td&gt;微博正文、图片、视频、发布时间、点赞/转发/评论数、用户信息、话题&lt;/td&gt;
          &lt;td&gt;⚠️ 部分需要&lt;/td&gt;
          &lt;td&gt;Cookie注入&lt;/td&gt;
          &lt;td&gt;4.5k&lt;/td&gt;
          &lt;td&gt;较活跃&lt;/td&gt;
          &lt;td&gt;低&lt;/td&gt;
          &lt;td&gt;微博用户内容存档&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/CharlesPikachu/videodl&#34;&gt;videodl&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;Python&lt;/td&gt;
          &lt;td&gt;逆向各平台API获取真实视频地址，FFmpeg合并&lt;/td&gt;
          &lt;td&gt;视频文件（无水印）、封面图、视频标题&lt;/td&gt;
          &lt;td&gt;⚠️ 部分需要&lt;/td&gt;
          &lt;td&gt;Cookie注入&lt;/td&gt;
          &lt;td&gt;2.1k&lt;/td&gt;
          &lt;td&gt;一般&lt;/td&gt;
          &lt;td&gt;低&lt;/td&gt;
          &lt;td&gt;多平台视频存档&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/lixi5338619/lxSpider&#34;&gt;lxSpider&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;Python&lt;/td&gt;
          &lt;td&gt;各平台独立实现，含Requests/Selenium/Scrapy多方案&lt;/td&gt;
          &lt;td&gt;各平台商品/评论/用户/内容数据（视具体案例）&lt;/td&gt;
          &lt;td&gt;⚠️ 部分需要&lt;/td&gt;
          &lt;td&gt;各平台不同&lt;/td&gt;
          &lt;td&gt;2k&lt;/td&gt;
          &lt;td&gt;一般&lt;/td&gt;
          &lt;td&gt;低&lt;/td&gt;
          &lt;td&gt;爬虫学习参考&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id=&#34;微信公众号&#34;&gt;微信公众号&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;项目&lt;/th&gt;
          &lt;th&gt;语言&lt;/th&gt;
          &lt;th&gt;实现原理&lt;/th&gt;
          &lt;th&gt;可爬取内容&lt;/th&gt;
          &lt;th&gt;是否需要登录&lt;/th&gt;
          &lt;th&gt;登录方式&lt;/th&gt;
          &lt;th&gt;Stars&lt;/th&gt;
          &lt;th&gt;维护状态&lt;/th&gt;
          &lt;th&gt;部署难度&lt;/th&gt;
          &lt;th&gt;适用场景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/TonyChen56/WeChatRobot&#34;&gt;WeChatRobot&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;C++&lt;/td&gt;
          &lt;td&gt;Windows DLL注入Hook微信进程，访问本地加密数据库&lt;/td&gt;
          &lt;td&gt;聊天记录、公众号文章、联系人、群组、本地加密数据库&lt;/td&gt;
          &lt;td&gt;✅ 需要&lt;/td&gt;
          &lt;td&gt;微信客户端登录（仅Windows）&lt;/td&gt;
          &lt;td&gt;7.1k&lt;/td&gt;
          &lt;td&gt;一般&lt;/td&gt;
          &lt;td&gt;极高&lt;/td&gt;
          &lt;td&gt;微信数据深度采集、机器人开发&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/chyroc/WechatSogou&#34;&gt;WechatSogou&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;Python&lt;/td&gt;
          &lt;td&gt;HTTP请求搜狗微信公开接口，BeautifulSoup解析&lt;/td&gt;
          &lt;td&gt;公众号名称/简介/头像、文章标题/摘要/链接/发布时间&lt;/td&gt;
          &lt;td&gt;❌ 不需要&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
          &lt;td&gt;6.3k&lt;/td&gt;
          &lt;td&gt;停止维护&lt;/td&gt;
          &lt;td&gt;低&lt;/td&gt;
          &lt;td&gt;公众号内容搜索聚合&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/wnma3mz/wechat_articles_spider&#34;&gt;wechat_articles_spider&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;Python&lt;/td&gt;
          &lt;td&gt;mitmproxy中间人代理拦截微信客户端流量&lt;/td&gt;
          &lt;td&gt;公众号历史文章全量（标题、正文、发布时间、阅读数、点赞数、原文链接）&lt;/td&gt;
          &lt;td&gt;✅ 需要&lt;/td&gt;
          &lt;td&gt;微信客户端登录+抓包&lt;/td&gt;
          &lt;td&gt;3.4k&lt;/td&gt;
          &lt;td&gt;一般&lt;/td&gt;
          &lt;td&gt;高&lt;/td&gt;
          &lt;td&gt;公众号历史文章全量存档&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/rachelos/we-mp-rss&#34;&gt;we-mp-rss&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;Python&lt;/td&gt;
          &lt;td&gt;微信账号授权后调用公众号接口，转换RSS输出&lt;/td&gt;
          &lt;td&gt;公众号文章标题、摘要、正文、发布时间、封面图，转为RSS Feed&lt;/td&gt;
          &lt;td&gt;✅ 需要&lt;/td&gt;
          &lt;td&gt;微信账号授权&lt;/td&gt;
          &lt;td&gt;3.2k&lt;/td&gt;
          &lt;td&gt;活跃&lt;/td&gt;
          &lt;td&gt;中&lt;/td&gt;
          &lt;td&gt;将公众号纳入RSS阅读器统一订阅&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id=&#34;新闻爬虫&#34;&gt;新闻爬虫&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;项目&lt;/th&gt;
          &lt;th&gt;语言&lt;/th&gt;
          &lt;th&gt;实现原理&lt;/th&gt;
          &lt;th&gt;可爬取内容&lt;/th&gt;
          &lt;th&gt;是否需要登录&lt;/th&gt;
          &lt;th&gt;登录方式&lt;/th&gt;
          &lt;th&gt;Stars&lt;/th&gt;
          &lt;th&gt;维护状态&lt;/th&gt;
          &lt;th&gt;部署难度&lt;/th&gt;
          &lt;th&gt;适用场景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/codelucas/newspaper&#34;&gt;newspaper3k&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;Python&lt;/td&gt;
          &lt;td&gt;HTTP请求+lxml解析正文，NLP提取摘要/关键词&lt;/td&gt;
          &lt;td&gt;文章正文、标题、作者、发布时间、摘要、关键词&lt;/td&gt;
          &lt;td&gt;❌ 不需要&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
          &lt;td&gt;15k&lt;/td&gt;
          &lt;td&gt;停止维护&lt;/td&gt;
          &lt;td&gt;低&lt;/td&gt;
          &lt;td&gt;学习参考，生产建议用4k&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/fhamborg/news-please&#34;&gt;news-please&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;Python&lt;/td&gt;
          &lt;td&gt;Scrapy驱动，自动解析RSS/Sitemap，结构化存储&lt;/td&gt;
          &lt;td&gt;文章正文、标题、作者、发布时间、描述、图片、语言、来源域名&lt;/td&gt;
          &lt;td&gt;❌ 不需要&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
          &lt;td&gt;2.5k&lt;/td&gt;
          &lt;td&gt;较活跃&lt;/td&gt;
          &lt;td&gt;中&lt;/td&gt;
          &lt;td&gt;大规模新闻数据集构建、学术研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/casual-silva/NewsCrawl&#34;&gt;NewsCrawl&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;Python&lt;/td&gt;
          &lt;td&gt;Scrapy+Redis+Celery分布式，定时任务+监控面板&lt;/td&gt;
          &lt;td&gt;文章标题、正文、发布时间、来源、分类&lt;/td&gt;
          &lt;td&gt;❌ 不需要&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
          &lt;td&gt;671&lt;/td&gt;
          &lt;td&gt;一般&lt;/td&gt;
          &lt;td&gt;高&lt;/td&gt;
          &lt;td&gt;企业级舆情监控&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/NanmiCoder/NewsCrawler&#34;&gt;NewsCrawler&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;Python&lt;/td&gt;
          &lt;td&gt;Playwright浏览器自动化，覆盖中外媒体&lt;/td&gt;
          &lt;td&gt;文章标题、正文、发布时间、作者、来源平台&lt;/td&gt;
          &lt;td&gt;⚠️ 部分需要&lt;/td&gt;
          &lt;td&gt;Cookie注入&lt;/td&gt;
          &lt;td&gt;417&lt;/td&gt;
          &lt;td&gt;活跃&lt;/td&gt;
          &lt;td&gt;中&lt;/td&gt;
          &lt;td&gt;中外媒体跨语言新闻聚合&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/AndyTheFactory/newspaper4k&#34;&gt;newspaper4k&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;Python&lt;/td&gt;
          &lt;td&gt;HTTP请求+lxml解析，NLP提取，支持异步&lt;/td&gt;
          &lt;td&gt;文章正文、标题、作者、发布时间、摘要、关键词、顶部图片&lt;/td&gt;
          &lt;td&gt;❌ 不需要&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
          &lt;td&gt;1.1k&lt;/td&gt;
          &lt;td&gt;活跃&lt;/td&gt;
          &lt;td&gt;低&lt;/td&gt;
          &lt;td&gt;快速提取任意新闻正文&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id=&#34;rss-阅读器--信息聚合&#34;&gt;RSS 阅读器 / 信息聚合&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;项目&lt;/th&gt;
          &lt;th&gt;语言&lt;/th&gt;
          &lt;th&gt;实现原理&lt;/th&gt;
          &lt;th&gt;可爬取内容&lt;/th&gt;
          &lt;th&gt;是否需要登录&lt;/th&gt;
          &lt;th&gt;登录方式&lt;/th&gt;
          &lt;th&gt;Stars&lt;/th&gt;
          &lt;th&gt;维护状态&lt;/th&gt;
          &lt;th&gt;部署难度&lt;/th&gt;
          &lt;th&gt;适用场景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/glanceapp/glance&#34;&gt;Glance&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;Go&lt;/td&gt;
          &lt;td&gt;单二进制，定时拉取各平台API，无数据库&lt;/td&gt;
          &lt;td&gt;RSS文章、Reddit帖子、HN热帖、GitHub Release、YouTube视频、天气、股票&lt;/td&gt;
          &lt;td&gt;❌ 不需要&lt;/td&gt;
          &lt;td&gt;部分源需API Key&lt;/td&gt;
          &lt;td&gt;34k&lt;/td&gt;
          &lt;td&gt;活跃&lt;/td&gt;
          &lt;td&gt;极低&lt;/td&gt;
          &lt;td&gt;个人信息看板&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/FreshRSS/FreshRSS&#34;&gt;FreshRSS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;PHP&lt;/td&gt;
          &lt;td&gt;定时拉取RSS/Atom feed，兼容Google Reader/Fever API&lt;/td&gt;
          &lt;td&gt;RSS/Atom订阅源的文章标题、正文、发布时间、作者、链接&lt;/td&gt;
          &lt;td&gt;❌ 不需要&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
          &lt;td&gt;15k&lt;/td&gt;
          &lt;td&gt;活跃&lt;/td&gt;
          &lt;td&gt;中&lt;/td&gt;
          &lt;td&gt;自托管RSS服务，多用户共享&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/miniflux/v2&#34;&gt;Miniflux&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;Go&lt;/td&gt;
          &lt;td&gt;轻量HTTP服务+PostgreSQL，定时抓取RSS&lt;/td&gt;
          &lt;td&gt;RSS/Atom订阅源的文章标题、正文、发布时间、作者、链接、附件&lt;/td&gt;
          &lt;td&gt;❌ 不需要&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
          &lt;td&gt;9.3k&lt;/td&gt;
          &lt;td&gt;活跃&lt;/td&gt;
          &lt;td&gt;低&lt;/td&gt;
          &lt;td&gt;极简高性能RSS，键盘流用户&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/yinan-c/RSSbrew&#34;&gt;RSSbrew&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;Python&lt;/td&gt;
          &lt;td&gt;拉取RSS后过滤+调用OpenAI生成摘要，输出新Feed&lt;/td&gt;
          &lt;td&gt;RSS源文章，经过滤/AI摘要后重新输出为新RSS&lt;/td&gt;
          &lt;td&gt;❌ 不需要&lt;/td&gt;
          &lt;td&gt;OpenAI API Key&lt;/td&gt;
          &lt;td&gt;287&lt;/td&gt;
          &lt;td&gt;较活跃&lt;/td&gt;
          &lt;td&gt;低&lt;/td&gt;
          &lt;td&gt;RSS内容过滤与AI摘要提炼&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id=&#34;选型建议&#34;&gt;选型建议&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;爬取国内社交媒体&lt;/strong&gt;（小红书/抖音/微博/B站）→ &lt;a href=&#34;https://github.com/NanmiCoder/MediaCrawler&#34;&gt;MediaCrawler&lt;/a&gt;，覆盖最全，维护最活跃&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;订阅微信公众号&lt;/strong&gt; → &lt;a href=&#34;https://github.com/rachelos/we-mp-rss&#34;&gt;we-mp-rss&lt;/a&gt; 转成 RSS，配合 Miniflux 或 FreshRSS 统一阅读&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;自建 RSS 服务&lt;/strong&gt; → 极简选 &lt;a href=&#34;https://github.com/miniflux/v2&#34;&gt;Miniflux&lt;/a&gt;，功能全选 &lt;a href=&#34;https://github.com/FreshRSS/FreshRSS&#34;&gt;FreshRSS&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;个人信息聚合看板&lt;/strong&gt; → &lt;a href=&#34;https://github.com/glanceapp/glance&#34;&gt;Glance&lt;/a&gt;，一个 Docker 命令搞定&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;提取任意新闻正文&lt;/strong&gt; → &lt;a href=&#34;https://github.com/AndyTheFactory/newspaper4k&#34;&gt;newspaper4k&lt;/a&gt;，3 行代码搞定&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;自定义爬虫开发&lt;/strong&gt; → Python 用 &lt;a href=&#34;https://github.com/scrapy/scrapy&#34;&gt;Scrapy&lt;/a&gt;，JS 网站加 &lt;a href=&#34;https://github.com/microsoft/playwright&#34;&gt;Playwright&lt;/a&gt;；Node.js 用 &lt;a href=&#34;https://github.com/apify/crawlee&#34;&gt;Crawlee&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;下载抖音/TikTok 视频&lt;/strong&gt; → &lt;a href=&#34;https://github.com/Evil0ctal/Douyin_TikTok_Download_API&#34;&gt;Douyin_TikTok_Download_API&lt;/a&gt;，有完整 REST API&lt;/li&gt;
&lt;/ul&gt;</description>
    </item>
  </channel>
</rss>
