78 changed files with 1401 additions and 3436 deletions

.gitignore vendored
24 Normal file
# V0.3.5
- 引入 Crawlee(playwrigt模块),大幅提升通用爬取能力,适配实际项目场景;
Introduce Crawlee (playwright module), significantly enhancing general crawling capabilities and adapting to real-world task;
- 完全重写了信息提取模块,引入“爬-查一体”策略,你关注的才是你想要的;
Completely rewrote the information extraction module, introducing an "integrated crawl-search" strategy, focusing on what you care about;
- 新策略下放弃了 gne、jieba 等模块,去除了安装包;
Under the new strategy, modules such as gne and jieba have been abandoned, reducing the installation package size;
- 重写了 pocketbase 的表单结构;
Rewrote the PocketBase form structure;
- llm wrapper引入异步架构、自定义页面提取器规范优化含 微信公众号文章提取优化);
llm wrapper introduces asynchronous architecture, customized page extractor specifications optimization (including WeChat official account article extraction optimization);
- 进一步简化部署操作步骤。
Further simplified deployment steps.

FROM python:3.10-slim
RUN apt-get update && \
apt-get install -yq tzdata build-essential unzip && \
apt-get clean
apt-get install -y tzdata build-essential unzip
COPY core/requirements.txt /tmp/requirements.txt
RUN pip install --no-cache-dir -r /tmp/requirements.txt
RUN playwright install
RUN playwright install-deps
COPY core/requirements.txt requirements.txt
RUN pip install --no-cache-dir -r requirements.txt
COPY core .
# download and unzip PocketBase
ADD /tmp/
ADD /tmp/
# for arm device
# ADD /tmp/
RUN unzip /tmp/ -d /app/pb/
# ADD /tmp/
RUN unzip /tmp/ -d /pb/
RUN apt-get clean && rm -rf /var/lib/apt/lists/*
# EXPOSE 8077
CMD tail -f /dev/null

## 🔥 V0.3.8版本预告
wiseflow 预计将在2024.12月底前正式升级到0.3.8版本,这也将是 V0.3.x 架构下的最终版本(除非有足够多的小修改,否则不会有 V0.3.9版本)
- 大幅升级 general_crawler引入诸多最新开源技术方案, 进一步提升页面适配覆盖度以及实现完全的本地 CPU 计算(意味着无需再为此配置 LLM 选项);
- 改进general_crawler 从列表页面提取 url 的能力,以及列表页面与普通文章页面的区分能力;
- 尝试引入新的 mp_crawler, 公众号文章监控无需wxbot
- 测试并推荐新的信息提取 llm model并微调提取策略。
- 引入对 RSS 信息源的支持;
- 引入对社交平台的支持(初期这一块会十分简陋,请不要太多期待)
上述内容会逐步提前释放到 dev 分支,欢迎切换尝鲜,并积极反馈 issue。
- ✅ 通用网页内容解析器综合使用统计学习依赖开源项目GNE和LLM适配90%以上的新闻页面;
- ✅ 异步任务架构;
- ✅ 使用LLM进行信息提取和标签分类最低只需使用9B大小的LLM就可完美执行任务
<img alt="sample.png" src="asset/sample.png" width="1024"/>
## 🔥 隆重介绍 V0.3.5 版本
## ✋ wiseflow 与常见的爬虫工具、AI搜索、知识库RAG项目有何不同
在充分听取社区反馈意见基础之上,我们重新提炼了 wiseflow 的产品定位新定位更加聚焦V0.3.5版本即是该定位下的全新架构版本:
承蒙大家的厚爱wiseflow自2024年6月底发布 V0.3.0版本来受到了开源社区的广泛关注,甚至吸引了不少自媒体的主动报道,在此首先表示感谢!
- 引入 [Crawlee]( 作为基础爬虫和任务管理框架,大幅提升页面获取能力。实测之前获取不到(包括获取为乱码的)页面目前都可以很好的获取了,后续大家碰到不能很好获取的页面,欢迎在 [issue #136]( 中进行反馈;
- 新产品定位下全新的信息提取策略——“爬查一体”,放弃文章详细提取,爬取过程中即使用 llm 直接提取用户感兴趣的信息infos同时自动判断值得跟进爬取的链接**你关注的才是你需要的**
- 适配最新版本v0.23.4)的 Pocketbase同时更新表单配置。另外新架构已经无需 GNE 等模块requirement 依赖项目降低到8个
- 新架构部署方案也更加简便docker 模式支持代码仓热更新这意味着后续升级就无需再重复docker build了。
- 更多细节,参考 [CHANGELOG](
但我们也注意到部分关注者对 wiseflow 的功能定位存在一些理解偏差,为免误会,我们制作了如下表格,清晰展示 wiseflow 与爬虫、AI搜索、知识库RAG类项目的对比
🌟 **V0.3.x 后续计划**
| | **首席情报官Wiseflow** |
- 引入 [SeeAct]( 方案通过视觉大模型指导复杂页面的操作如滚动、点击后出现信息等情况V0.3.6
- 尝试支持微信公众号免wxbot订阅V0.3.7
- 引入对 RSS 信息源的支持V0.3.8;
- 尝试引入 LLM 驱动的轻量级知识图谱,帮助用户从 infos 中建立洞察V0.3.9)。
## ✋ wiseflow 与传统的爬虫工具、AI搜索、知识库RAG项目有何不同
wiseflow自2024年6月底发布 V0.3.0版本来受到了开源社区的广泛关注,甚至吸引了不少自媒体的主动报道,在此首先表示感谢!
但我们也注意到部分关注者对 wiseflow 的功能定位存在一些理解偏差如下表格通过与传统爬虫工具、AI搜索、知识库RAG类项目的对比代表了我们目前对于 wiseflow 产品最新定位思考。
| | 与 **首席情报官Wiseflow** 的比较说明|
| **爬虫类工具** | wiseflow 集成了很多优秀的开源爬虫工具,并增加了基于 LLM 的自动化信息过滤、筛选与分类能力,所以可以简单认为 wiseflow = 爬虫工具 + AI |
| **AI搜索** | AI搜索主要的应用场景是**具体问题的即时问答**举例”XX公司的创始人是谁“、“xx品牌下的xx产品哪里有售” wiseflow主要的应用场景是**某一方面信息的持续采集**比如XX公司的关联信息追踪XX品牌市场行为的持续追踪……在这些场景下用户只能提供关注点某公司、某品牌但无法提出具体搜索问题且并不是一次检索而是需要持续追踪或者自动化进行关联追踪您可以简单的把wiseflow理解为一个可持续自动进行 ai 搜索的“智能体”,即 “AI 情报官” |
| **知识库RAG类项目** | 知识库RAG类项目一般是基于已有信息的下游任务并且一般面向的是私有知识比如企业内的操作手册、产品手册、政府部门的文件等wiseflow 目前并未整合下游任务,同时面向的是互联网上的公开信息 |
## 🔄 V0.3.1 更新
dashboard 部分已经删除如果您有dashboard需求请下载 [V0.2.1版本](
👏 虽然部分9b大小的LLMTHUDM/glm-4-9b-chat已经可以实现稳定的信息提取输出但是我们发现对于复杂含义的tag比如“党建”或者需要特指的tag比如仅需采集“居民区活动”而不希望包括诸如演唱会这样的大型活动信息
_注复杂explaination需要更大规模的模型才能准确理解具体见 [模型推荐 2024-09-03](###-4. 模型推荐 [2024-09-03])_
👏 另外针对上一版本prompt语言选择的问题虽然这并不影响输出结果我们在目前版本中进一步简化了方案用户无需指定系统语言这在docker中并不那么直观系统会根据tag以及tag的explaination判断选择何种语言的
prompt也就决定了info的输出语言这进一步简化了wiseflow的部署和使用。【不过目前wiseflow仅支持简体中文和英文两种语言其他语言的需求可以通过更改 core/insights/ 中的prompt实现】
## 🌟 如何在您的应用中整合wiseflow
PocketBase作为流行的轻量级数据库目前已有 Go/Javascript/Python 等语言的SDK。
- Go :
- Javascript :
- python :
| **爬虫类工具** | 首先 wiseflow 是基于爬虫工具的项目(以目前版本而言,我们基于爬虫框架 Crawlee但传统的爬虫工具在信息提取方面需要人工的介入提供明确的 Xpath 等信息……这不仅阻挡了普通用户同时也毫无通用性可言对于不同网站包括已有网站升级后都需要人工重做分析并更新提取代码。wiseflow致力于使用 LLM 自动化网页的分析和提取工作,用户只要告诉程序他的关注点即可,从这个角度来说,可以简单理解 wiseflow 为 “能自动使用爬虫工具的 AI 智能体” |
| **AI搜索** | AI搜索主要的应用场景是**具体问题的即时问答**举例”XX公司的创始人是谁“、“xx品牌下的xx产品哪里有售” ,用户要的是**一个答案**wiseflow主要的应用场景是**某一方面信息的持续采集**比如XX公司的关联信息追踪XX品牌市场行为的持续追踪……在这些场景下用户能提供关注点某公司、某品牌、甚至能提供信源站点 url 等),但无法提出具体搜索问题,用户要的是**一系列相关信息**|
| **知识库RAG类项目** | 知识库RAG类项目一般是基于已有信息的下游任务并且一般面向的是私有知识比如企业内的操作手册、产品手册、政府部门的文件等wiseflow 目前并未整合下游任务同时面向的是互联网上的公开信息如果从“智能体”的角度来看二者属于为不同目的而构建的智能体RAG 类项目是“(内部)知识助理智能体”,而 wiseflow 则是“(外部)信息采集智能体”|
## 📥 安装与使用
git clone
cd wiseflow
### 2. 推荐使用docker运行
### 2. 参考 env_sample 配置 .env 文件放置在 core 目录下
**中国区用户使用前请合理配置网络或者指定docker hub镜像**
🌟 **这里与之前版本不同**V0.3.5开始需要把 .env 放置在 core文件夹中。
另外 V0.3.5 起env 配置也大幅简化了,必须的配置项目只有三项,具体如下:
服务接口地址,任何支持 openai sdk 的服务商都可以如果直接使用openai 的服务,这一项也可以不填
- PB_API_AUTH="|1234567890"
pocketbase 数据库的 superuser 用户名和密码,记得用 | 分隔
- #VERBOSE="true"
是否开启观测模式,开启的话,不仅会把 debug log信息记录在 logger 文件上(默认仅输出在 console 上),同时会开启 playwright 的浏览器窗口,方便观察抓取过程;
- #PRIMARY_MODEL="Qwen/Qwen2.5-7B-Instruct"
主模型选择,在使用 siliconflow 服务的情况下这一项不填就会默认调用Qwen2.5-7B-Instruct实测基本也够用但我更加**推荐 Qwen2.5-14B-Instruct**
- #SECONDARY_MODEL="THUDM/glm-4-9b-chat"
副模型选择,在使用 siliconflow 服务的情况下这一项不填就会默认调用glm-4-9b-chat。
- #PROJECT_DIR="work_dir"
项目运行数据目录,不配置的话,默认在 `core/work_dir` ,注意:目前整个 core 目录是挂载到 container 下的,所以意味着你可以直接访问这里。
只有当你的 pocketbase 不运行在默认ip 或端口下才需要配置,默认情况下忽略就行。
### 3.1 使用docker运行
✋ V0.3.5版本架构和依赖与之前版本有较大不同,请务必重新拉取代码,删除旧版本镜像(包括外挂的 pb_data 文件夹重新build
最新可用 docker 镜像加速地址参考:[参考1]( [参考2](
cd wiseflow
docker compose up
- 在wiseflow代码仓根目录下运行上述命令
- 运行前先创建并编辑.env文件放置在Dockerfile同级目录wiseflow代码仓根目录.env文件可以参考env_sample
- 第一次运行docker container时会遇到报错这其实是正常现象因为你尚未为pb仓库创建admin账号。
此时请保持container不关闭状态浏览器打开` `按提示创建admin账号一定要使用邮箱然后将创建的admin邮箱再次强调一定要用邮箱和密码填入.env文件重启container即可。
第一次运行docker container时程序可能会报错这是正常现象请按屏幕提示创建 super user 账号(一定要使用邮箱),然后将创建的用户名密码填入.env文件重启container即可。
docker run -e LANG=zh_CN.UTF-8 -e LC_CTYPE=zh_CN.UTF-8 your_image
### 2.【备选】直接使用python运行
🌟 docker方案默认运行 ,即会周期性执行爬取-提取任务(启动时会立即先执行一次,之后每隔一小时启动一次)
### 3.2 使用python环境运行
✋ V0.3.5版本架构和依赖与之前版本有较大不同请务必重新拉取代码删除或重建pb_data
推荐使用 conda 构建虚拟环境
cd wiseflow
conda create -n wiseflow python=3.10
conda activate wiseflow
cd core
pip install -r requirements.txt
之后可以参考core/scripts 中的脚本分别启动pb、task和backend 将脚本文件移动到core目录下
之后去这里 [下载]( 对应的 pocketbase 客户端,放置到 [/pb](/pb) 目录下。然后
- 一定要先启动pb至于task和backend是独立进程先后顺序无所谓也可以按需求只启动其中一个
- 需要先去这里 下载对应自己设备的pocketbase客户端并放置在 /core/pb 目录下
- pb运行问题包括首次运行报错等参考 [core/pb/](/core/pb/
- 使用前请创建并编辑.env文件放置在wiseflow代码仓根目录core目录的上级.env文件可以参考env_sample详细配置说明见下
chmod +x
./ # if you just want to scan sites one-time (no loop), use ./
📚 for developer see [/core/](/core/ for more
这个脚本会自动判断 pocketbase 是否已经在运行,如果未运行,会自动拉起。但是请注意,当你 ctrl+c 或者 ctrl+z 终止进程时pocketbase 进程不会被终止直到你关闭terminal。
通过 pocketbase 访问获取的数据:
- - Admin dashboard UI
另外与 docker 部署一样,第一次运行时可能会出现报错,请按屏幕提示创建 super user 账号(一定要使用邮箱),然后将创建的用户名密码填入.env文件再次运行即可。
当然你也可以在另一个 terminal 提前运行并设定 pocketbase这会避免第一次的报错具体可以参考 [pb/](/pb/
### 3. 配置
### 4. 模型推荐 [2024-12-09]
复制目录下的env_sample并改名为.env, 参考如下 填入你的配置信息LLM服务token等
虽然参数量越大的模型意味着更佳的性能,但经过实测,**使用 Qwen2.5-7b-Instruct 和 glm-4-9b-chat 模型,即可以达到基本的效果**。不过综合考虑成本、速度和效果,我更加推荐主模型
**windows用户如果选择直接运行python程序可以直接在 “开始 - 设置 - 系统 - 关于 - 高级系统设置 - 环境变量“ 中设置如下项目,设置后需要重启终端生效**
这里依然强烈推荐使用 siliconflow硅基流动的 MaaS 服务提供多个主流开源模型的服务量大管饱Qwen2.5-7b-Instruct 和 glm-4-9b-chat 目前提供免费服务。主模型使用Qwen2.5-14B-Instruct情况下爬取374个网页有效抽取43条 info总耗费¥3.07
- LLM_API_KEY # 大模型推理服务API KEY
- LLM_API_BASE # 本项目依赖openai sdk只要模型服务支持openai接口就可以通过配置该项正常使用如使用openai服务删除这一项即可
- WS_LOG="verbose" # 设定是否开始debug观察如无需要删除即可
- GET_INFO_MODEL # 信息提炼与标签匹配任务模型,默认为 gpt-4o-mini-2024-07-18
- REWRITE_MODEL # 近似信息合并改写任务模型,默认为 gpt-4o-mini-2024-07-18
- HTML_PARSE_MODEL # 网页解析模型GNE算法效果不佳时智能启用默认为 gpt-4o-mini-2024-07-18
- PROJECT_DIR # 数据、缓存以及日志文件存储位置,相对于代码仓的相对路径,默认不填就在代码仓
- PB_API_AUTH='email|password' # pb数据库admin的邮箱和密码注意一定是邮箱可以是虚构的邮箱
- PB_API_BASE # 正常使用无需这一项只有当你不使用默认的pocketbase本地接口8090时才需要
😄 如果您愿意,可以使用我的[siliconflow邀请链接](这样我也可以获得更多token奖励 🌹
**如果您的信源多为非中文页面,且也不要求提取出的 info 为中文,那么更推荐您使用 openai 或者 claude 等海外厂家的模型。**
### 4. 模型推荐 [2024-09-03]
您可以尝试第三方代理 **AiHubMix**,支持国内网络环境直连、支付宝便捷支付,免去封号风险;
经过反复测试(中英文任务)**GET_INFO_MODEL**、**REWRITE_MODEL**、**HTML_PARSE_MODEL** 三项最小可用模型分别为:**"THUDM/glm-4-9b-chat"**、**"Qwen/Qwen2-7B-Instruct"**、**"Qwen/Qwen2-7B-Instruct"**
😄 欢迎使用如下邀请链接 [AiHubMix邀请链接]( 注册 🌹
😄 如果您愿意,可以使用我的[siliconflow邀请链接](这样我也可以获得更多token奖励 😄
⚠️ **V0.3.1更新**
如果您使用带explaination的复杂tag那么glm-4-9b-chat规模的模型是无法保证准确理解的目前测试下来针对该类型任务效果比较好的模型为 **Qwen/Qwen2-72B-Instruct****gpt-4o-mini-2024-07-18**
针对有需求使用 `gpt-4o-mini-2024-07-18` 的用户,可以尝试第三方代理 **AiHubMix**支持国内网络环境直连、支付宝充值实际费率相当于官网86折
🌹 欢迎使用如下邀请链接 [AiHubMix邀请链接]( 注册 🌹
🌍 上述两个平台的在线推理服务均兼容openai SDK配置`.env `的`LLM_API_BASE`和`LLM_API_KEY`后即可使用。
🌟 **请注意 wiseflow 本身并不限定任何模型服务,只要服务兼容 openAI SDK 即可,包括本地部署的 ollama、Xinference 等服务**
### 5. **关注点和定时扫描信源添加**
启动程序后打开pocketbase Admin dashboard UI (
#### 5.1 打开 tags表单
#### 5.1 打开 focus_point 表单
tags 字段说明:
- name, 关注点名称
- explaination关注点的详细解释或具体约定如 “仅限上海市官方发布的初中升学信息”tag name为 上海初中升学信息)
- activated, 是否激活。如果关闭则会忽略该关注点关闭后可再次开启。开启和关闭无需重启docker容器会在下一次定时任务时更新。
- focuspoint, 关注点描述(必填),如”上海小升初信息“、”加密货币价格“
- explanation关注点的详细解释或具体约定如 “仅限上海市官方发布的初中升学信息”、“BTC、ETH 的现价、涨跌幅数据“等
- activated, 是否激活。如果关闭则会忽略该关注点,关闭后可再次开启。
注意focus_point 更新设定(包括 activated 调整)后,**需要重启程序才会生效。**
#### 5.2 打开 sites表单
@ -183,17 +178,25 @@ tags 字段说明:
sites 字段说明:
- url, 信源的url信源无需给定具体文章页面给文章列表页面即可。
- per_hours, 扫描频率单位为小时类型为整数1~24范围我们建议扫描频次不要超过一天一次即设定为24
- activated, 是否激活。如果关闭则会忽略该信源关闭后可再次开启。开启和关闭无需重启docker容器会在下一次定时任务时更新。
- activated, 是否激活。如果关闭则会忽略该信源,关闭后可再次开启。
**sites 的设定调整,无需重启程序。**
### 6. 本地部署
## 📚 如何在您自己的程序中使用 wiseflow 抓取出的数据
1、参考 [dashbord](dashboard) 部分源码二次开发
请保证您的本地化部署LLM服务兼容openai SDK并配置 LLM_API_BASE 即可。
注意 wiseflow 的 core 部分并不需要 dashboard目前产品也未集成 dashboard如果您有dashboard需求请下载 [V0.2.1版本](
若需让7b~9b规模的LLM可以实现对tag explaination的准确理解推荐使用dspy进行prompt优化但这需要累积约50条人工标记数据。详见 [DSPy](
2、直接从 Pocketbase 中获取数据
wiseflow 所有抓取数据都会即时存入 pocketbase因此您可以直接操作 pocketbase 数据库来获取数据。
PocketBase作为流行的轻量级数据库目前已有 Go/Javascript/Python 等语言的SDK。
- Go :
- Javascript :
- python :
## 🛡️ 许可协议
@ -206,14 +209,17 @@ sites 字段说明:
## 📬 联系方式
有任何问题或建议,欢迎通过 [issue]( 与我们联系
有任何问题或建议,欢迎通过 [issue]( 留言
## 🤝 本项目基于如下优秀的开源项目:
- GeneralNewsExtractor General Extractor of News Web Page Body Based on Statistical Learning
- crawlee-python A web scraping and browser automation library for Python to build reliable crawlers. Works with BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.
- json_repairRepair invalid JSON documents
- python-pocketbase (pocketBase client SDK for python)
- SeeActa system for generalist web agents that autonomously carry out tasks on any given website, with a focus on large multimodal models (LMMs) such as GPT-4Vision.
同时受 [GNE](、[AutoCrawler]( 启发。
## Citation

- 반드시 pb를 먼저 시작해야 하며, task와 backend는 독립적인 프로세스이므로 순서는 상관없고, 필요에 따라 하나만 시작해도 됩니다.
- 먼저 여기를 방문하여 본인의 장치에 맞는 pocketbase 클라이언트를 다운로드하고 /core/pb 디렉토리에 배치해야 합니다.
- pb 실행 문제(처음 실행 시 오류 포함)에 대해서는 [core/pb/](/core/pb/를 참조하십시오.
- pb 실행 문제(처음 실행 시 오류 포함)에 대해서는 [core/pb/](/pb/를 참조하십시오.
- 사용 전에 .env 파일을 생성하고 편집하여 wiseflow 코드 저장소의 루트 디렉토리(core 디렉토리의 상위)에 배치하십시오. .env 파일은 env_sample을 참고하고, 자세한 설정 설명은 아래를 참조하십시오.
📚 개발자를 위한 더 많은 정보는 [/core/](/core/를 참조하십시오.

Binary file not shown.


Width:  |  Height:  |  Size: 533 KiB

image: wiseflow:latest
tty: true
stdin_open: true
entrypoint: bash
- .env
entrypoint: ["bash", "/app/"]
- 8090:8090
- 8077:8077
- ./${PROJECT_DIR}/pb_data:/app/pb/pb_data
- ./core:/app
- ./pb/pb_data:/pb/pb_data
- ./pb/pb_migrations:/pb/pb_migrations

@ -0,0 +1,18 @@
set -o allexport
source .env
set +o allexport
if ! pgrep -x "pocketbase" > /dev/null; then
if ! netstat -tuln | grep ":8090" > /dev/null && ! lsof -i :8090 > /dev/null; then
echo "Starting PocketBase..."
../pb/pocketbase serve --http= &
echo "Port 8090 is already in use."
echo "PocketBase is already running."

core/ Executable file
View File

@ -0,0 +1,18 @@
set -o allexport
source .env
set +o allexport
if ! pgrep -x "pocketbase" > /dev/null; then
if ! netstat -tuln | grep ":8090" > /dev/null && ! lsof -i :8090 > /dev/null; then
echo "Starting PocketBase..."
../pb/pocketbase serve --http= &
echo "Port 8090 is already in use."
echo "PocketBase is already running."

View File

@ -1,56 +0,0 @@
We provide a general page parser that can intelligently retrieve article lists from sources. For each article URL, it first attempts to use `gne` for parsing, and if that fails, it will try using `llm`.
This solution allows scanning and extracting information from most general news and portal sources.
**However, we strongly recommend that users develop custom parsers for specific sources tailored to their actual business scenarios for more ideal and efficient scanning.**
We also provide a parser specifically for WeChat public articles (
**If you are willing to contribute your custom source-specific parsers to this repository, we would greatly appreciate it!**
## Custom Source Parser Development Specifications
### Specifications
**Remember It should be an asynchronous function**
1. **The parser should be able to intelligently distinguish between article list pages and article detail pages.**
2. **The parser's input parameters should only include `url` and `logger`:**
- `url` is the complete address of the source (type `str`).
- `logger` is the logging object (please do not configure a separate logger for your custom source parser).
3. **The parser's output should include `flag` and `result`, formatted as `tuple[int, Union[set, dict]]`:**
- If the `url` is an article list page, `flag` returns `1`, and `result` returns a tuple of all article page URLs (`set`).
- If the `url` is an article page, `flag` returns `11`, and `result` returns all article details (`dict`), in the following format:
{'url': str, 'title': str, 'author': str, 'publish_time': str, 'content': str, 'abstract': str, 'images': [str]}
_Note: `title` and `content` cannot be empty._
**Note: `publish_time` should be in the format `"%Y%m%d"` (date only, no `-`). If the scraper cannot fetch it, use the current date.**
- If parsing fails, `flag` returns `0`, and `result` returns an empty dictionary `{}`.
_`pipeline` will try other parsing solutions (if any) upon receiving `flag` 0._
- If page retrieval fails (e.g., network issues), `flag` returns `-7`, and `result` returns an empty dictionary `{}`.
_`pipeline` will not attempt to parse again in the same process upon receiving `flag` -7._
### Registration
After writing your scraper, place the scraper program in this folder and register the scraper in `scraper_map` under ``, similar to:
{'domain': 'crawler def name'}
It is recommended to use urllib.parse to get the domain:
from urllib.parse import urlparse
parsed_url = urlparse("site's url")
domain = parsed_url.netloc

View File

@ -1,56 +0,0 @@
我们提供了一个通用页面解析器,该解析器可以智能获取信源文章列表。对于每个文章 URL会先尝试使用 `gne` 进行解析,如果失败,再尝试使用 `llm` 进行解析。
## 专有信源解析器开发规范
### 规范
1. **解析器应能智能区分文章列表页面和文章详情页面。**
2. **解析器入参只包括 `url``logger` 两项:**
- `url` 是信源完整地址(`str` 类型)
- `logger` 是日志对象(请勿为您的专有信源解析器单独配置 `logger`
3. **解析器出参包括 `flag``result` 两项,格式为 `tuple[int, Union[set, dict]]`**
- 如果 `url` 是文章列表页面,`flag` 返回 `1``result` 返回解析出的全部文章页面 URL 集合(`set`)。
- 如果 `url` 是文章页面,`flag` 返回 `11``result` 返回解析出的全部文章详情(`dict`),格式如下:
{'url': str, 'title': str, 'author': str, 'publish_time': str, 'content': str, 'abstract': str, 'images': [str]}
_注意`title` 和 `content` 两项不能为空。_
**注意:`publish_time` 格式为 `"%Y%m%d"`(仅日期,没有 `-`),如果爬虫抓不到可以用当天日期。**
- 如果解析失败,`flag` 返回 `0``result` 返回空字典 `{}`
_`pipeline` 收到 `flag` 0 会尝试其他解析方案如有。_
- 如果页面获取失败(如网络问题),`flag` 返回 `-7``result` 返回空字典 `{}`
_`pipeline` 收到 `flag` -7 同一进程内不会再次尝试解析。_
### 注册
写好爬虫后,将爬虫程序放在该文件夹,并在 `` 下的 `scraper_map` 中注册爬虫,类似:
{'domain': 'crawler def name'}
建议使用 urllib.parse 获取 domain
from urllib.parse import urlparse
parsed_url = urlparse("site's url")
domain = parsed_url.netloc

View File

@ -1,56 +0,0 @@
Wir bieten einen allgemeinen Seitenparser an, der intelligent Artikellisten von Quellen abrufen kann. Für jede Artikel-URL wird zuerst versucht, `gne` zur Analyse zu verwenden. Falls dies fehlschlägt, wird `llm` als Alternative genutzt.
Diese Lösung ermöglicht das Scannen und Extrahieren von Informationen aus den meisten allgemeinen Nachrichtenquellen und Portalen.
**Wir empfehlen jedoch dringend, benutzerdefinierte Parser für spezifische Quellen zu entwickeln, die auf Ihre tatsächlichen Geschäftsszenarien abgestimmt sind, um eine idealere und effizientere Erfassung zu erreichen.**
Wir stellen auch einen speziellen Parser für WeChat-Artikel ( bereit.
**Falls Sie bereit sind, Ihre speziell entwickelten Parser für bestimmte Quellen zu diesem Code-Repository beizutragen, wären wir Ihnen sehr dankbar!**
## Entwicklungsspezifikationen für benutzerdefinierte Quellparser
### Spezifikationen
**Denken Sie daran: Es sollte eine asynchrone Funktion sein**
1. **Der Parser sollte in der Lage sein, intelligent zwischen Artikel-Listen-Seiten und Artikel-Detailseiten zu unterscheiden.**
2. **Die Eingabeparameter des Parsers sollten nur `url` und `logger` umfassen:**
- `url` ist die vollständige Adresse der Quelle (Typ `str`).
- `logger` ist das Protokollierungsobjekt (bitte konfigurieren Sie keinen separaten Logger für Ihren benutzerdefinierten Quellparser).
3. **Die Ausgabe des Parsers sollte `flag` und `result` umfassen, im Format `tuple[int, Union[set, dict]]`:**
- Wenn die `url` eine Artikellisten-Seite ist, gibt `flag` `1` zurück, und `result` gibt eine satz aller Artikel-URLs (`set`) zurück.
- Wenn die `url` eine Artikelseite ist, gibt `flag` `11` zurück, und `result` gibt alle Artikeldetails (`dict`) zurück, im folgenden Format:
{'url': str, 'title': str, 'author': str, 'publish_time': str, 'content': str, 'abstract': str, 'images': [str]}
_Hinweis: `title` und `content` dürfen nicht leer sein._
**Hinweis: Das `publish_time`-Format muss `"%Y%m%d"` (nur Datum, ohne `-`) sein. Wenn der Scraper es nicht erfassen kann, verwenden Sie das aktuelle Datum.**
- Wenn die Analyse fehlschlägt, gibt `flag` `0` zurück, und `result` gibt ein leeres Wörterbuch `{}` zurück.
_Der `pipeline` versucht andere Analysemethoden (falls vorhanden), wenn `flag` 0 zurückgegeben wird._
- Wenn das Abrufen der Seite fehlschlägt (z. B. aufgrund von Netzwerkproblemen), gibt `flag` `-7` zurück, und `result` gibt ein leeres Wörterbuch `{}` zurück.
_Der `pipeline` wird im gleichen Prozess keine weiteren Versuche zur Analyse unternehmen, wenn `flag` -7 zurückgegeben wird._
### Registrierung
Nach dem Schreiben Ihres Scrapers platzieren Sie das Scraper-Programm in diesem Ordner und registrieren den Scraper in `scraper_map` in ``, wie folgt:
{'domain': 'Crawler-Funktionsname'}
Es wird empfohlen, urllib.parse zur Ermittlung der domain zu verwenden:
from urllib.parse import urlparse
parsed_url = urlparse("l'URL du site")
domain = parsed_url.netloc

View File

@ -1,56 +0,0 @@
Nous proposons un analyseur de pages général capable de récupérer intelligemment les listes d'articles de sources d'information. Pour chaque URL d'article, il tente d'abord d'utiliser `gne` pour l'analyse, et en cas d'échec, il essaie d'utiliser `llm`.
Cette solution permet de scanner et d'extraire des informations de la plupart des sources de nouvelles générales et des portails d'information.
**Cependant, nous recommandons vivement aux utilisateurs de développer des analyseurs personnalisés pour des sources spécifiques en fonction de leurs scénarios d'affaires réels afin d'obtenir une analyse plus idéale et plus efficace.**
Nous fournissons également un analyseur spécialement conçu pour les articles publics WeChat (
**Si vous êtes disposé à contribuer vos analyseurs spécifiques à certaines sources à ce dépôt de code, nous vous en serions très reconnaissants !**
## Spécifications pour le Développement d'Analyseurs Spécifiques
### Spécifications
**N'oubliez pas : il devrait s'agir d'une fonction asynchrone**
1. **L'analyseur doit être capable de distinguer intelligemment entre les pages de liste d'articles et les pages de détail des articles.**
2. **Les paramètres d'entrée de l'analyseur doivent uniquement inclure `url` et `logger` :**
- `url` est l'adresse complète de la source (type `str`).
- `logger` est l'objet de journalisation (ne configurez pas de logger séparé pour votre analyseur spécifique).
3. **Les paramètres de sortie de l'analyseur doivent inclure `flag` et `result`, formatés comme `tuple[int, Union[set, dict]]` :**
- Si l'URL est une page de liste d'articles, `flag` renvoie `1` et `result` renvoie la set de toutes les URL des pages d'articles (`set`).
- Si l'URL est une page d'article, `flag` renvoie `11` et `result` renvoie tous les détails de l'article (`dict`), au format suivant :
{'url': str, 'title': str, 'author': str, 'publish_time': str, 'content': str, 'abstract': str, 'images': [str]}
_Remarque : `title` et `content` ne peuvent pas être vides._
**Remarque : `publish_time` doit être au format `"%Y%m%d"` (date uniquement, sans `-`). Si le scraper ne peut pas le récupérer, utilisez la date du jour.**
- En cas d'échec de l'analyse, `flag` renvoie `0` et `result` renvoie un dictionnaire vide `{}`.
_Le `pipeline` essaiera d'autres solutions d'analyse (si disponibles) après avoir reçu `flag` 0._
- En cas d'échec de la récupération de la page (par exemple, problème réseau), `flag` renvoie `-7` et `result` renvoie un dictionnaire vide `{}`.
_Le `pipeline` n'essaiera pas de réanalyser dans le même processus après avoir reçu `flag` -7._
### Enregistrement
Après avoir écrit votre scraper, placez le programme du scraper dans ce dossier et enregistrez le scraper dans `scraper_map` sous ``, de manière similaire :
{'domain': 'nom de la fonction de crawler'}
Il est recommandé d'utiliser urllib.parse pour obtenir le domain :
from urllib.parse import urlparse
parsed_url = urlparse("l'URL du site")
domain = parsed_url.netloc

View File

@ -1,56 +0,0 @@
汎用ページパーサーを提供しており、このパーサーは信頼できるソースから記事リストをインテリジェントに取得します。各記事URLに対して、まず `gne` を使用して解析を試み、失敗した場合は `llm` を使用して解析します。
また、WeChat 公共アカウントの記事mp.weixin.qq.comに特化したパーサーも提供しています。
## 特定ソースパーサー開発規範
### 規範
1. **パーサーは、記事リストページと記事詳細ページをインテリジェントに区別できる必要があります。**
2. **パーサーの入力パラメーターは `url``logger` のみを含むべきです:**
- `url` はソースの完全なアドレス(`str` タイプ)
- `logger` はロギングオブジェクト(専用のロガーを構成しないでください)
3. **パーサーの出力は `flag``result` を含み、形式は `tuple[int, Union[set, dict]]`**
- `url` が記事リストページの場合、`flag` は `1` を返し、`result` はすべての記事ページURLのコレクション`set`)を返します。
- `url` が記事ページの場合、`flag` は `11` を返し、`result` はすべての記事詳細(`dict`)を返します。形式は以下の通りです:
{'url': str, 'title': str, 'author': str, 'publish_time': str, 'content': str, 'abstract': str, 'images': [str]}
_注意`title` と `content` は空であってはなりません。_
**注意:`publish_time` の形式は `"%Y%m%d"`(日付のみ、`-` はなし)である必要があります。スクレイパーが取得できない場合は、当日の日付を使用してください。**
- 解析に失敗した場合、`flag` は `0` を返し、`result` は空の辞書 `{}` を返します。
_`pipeline` は `flag` 0 を受け取ると他の解析ソリューション存在する場合を試みます。_
- ページの取得に失敗した場合(例えば、ネットワークの問題)、`flag` は `-7` を返し、`result` は空の辞書 `{}` を返します。
_`pipeline` は `flag` -7 を受け取ると、同一プロセス内では再解析を試みません。_
### 登録
スクレイパーを作成したら、このフォルダにプログラムを配置し、`` の `scraper_map` にスクレイパーを次のように登録してください:
{'domain': 'スクレイパー関数名'}
domain の取得には urllib.parse を使用することをお勧めします:
from urllib.parse import urlparse
parsed_url = urlparse("l'URL du site")
domain = parsed_url.netloc

View File

@ -1,4 +0,0 @@
from .mp_crawler import mp_crawler
scraper_map = {'': mp_crawler}

View File

@ -1,228 +0,0 @@
# -*- coding: utf-8 -*-
# when you use this general crawler, remember followings
# When you receive flag -7, it means that the problem occurs in the HTML fetch process.
# When you receive flag 0, it means that the problem occurred during the content parsing process.
# when you receive flag 1, the result would be a tuple, means that the input url is possible a article_list page
# and the set contains the url of the articles.
# when you receive flag 11, you will get the dict contains the title, content, url, date, and the source of the article.
from gne import GeneralNewsExtractor
import httpx
from bs4 import BeautifulSoup
from datetime import datetime
from urllib.parse import urlparse
from llms.openai_wrapper import openai_llm
# from llms.siliconflow_wrapper import sfa_llm
from bs4.element import Comment
from utils.general_utils import extract_and_convert_dates
import asyncio
import json_repair
import os
from typing import Union
from requests.compat import urljoin
from scrapers import scraper_map
model = os.environ.get('HTML_PARSE_MODEL', 'gpt-4o-mini-2024-07-18')
header = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Chrome/ Safari/604.1 Edg/'}
extractor = GeneralNewsExtractor()
def tag_visible(element: Comment) -> bool:
if in ["style", "script", "head", "title", "meta", "[document]"]:
return False
if isinstance(element, Comment):
return False
return True
def text_from_soup(soup: BeautifulSoup) -> str:
res = []
texts = soup.find_all(string=True)
visible_texts = filter(tag_visible, texts)
for v in visible_texts:
text = "\n".join(res)
return text.strip()
sys_info = '''Your task is to operate as an HTML content extractor, focusing on parsing a provided HTML segment. Your objective is to retrieve the following details directly from the raw text within the HTML, without summarizing or altering the content:
- The document's title
- The complete main content, as it appears in the HTML, comprising all textual elements considered part of the core article body
- The publication time in its original format found within the HTML
Ensure your response fits the following JSON structure, accurately reflecting the extracted data without modification:
"title": "The Document's Exact Title",
"content": "All the unaltered primary text content from the article",
"publish_time": "Original Publication Time as per HTML"
It is essential that your output adheres strictly to this format, with each field filled based on the untouched information extracted directly from the HTML source.'''
async def general_crawler(url: str, logger) -> tuple[int, Union[set, dict]]:
Return article information dict and flag, negative number is error, 0 is no result, 1 is for article_list page,
11 is success
main work flow:
(for weixin public account articles, which startswith mp.weixin.qq use mp_crawler)
first get the content with httpx
then judge is article list (return all article url and flag 1) or article detail page
then try to use gne to extract the information
when fail, try to use a llm to analysis the html
# 0. if there's a scraper for this domain, use it (such as
parsed_url = urlparse(url)
domain = parsed_url.netloc
base_url = f"{parsed_url.scheme}://{domain}"
if domain in scraper_map:
return await scraper_map[domain](url, logger)
# 1. get the content with httpx
async with httpx.AsyncClient() as client:
for retry in range(2):
response = await client.get(url, headers=header, timeout=30)
except Exception as e:
if retry < 1:"can not reach\n{e}\nwaiting 1min")
await asyncio.sleep(60)
return -7, {}
# 2. judge is article list (return all article url and flag 1) or article detail page
page_source = response.text
if page_source:
text = page_source
text = response.content.decode('utf-8')
except UnicodeDecodeError:
text = response.content.decode('gbk')
except Exception as e:
logger.error(f"can not decode html {e}")
return -7, {}
soup = BeautifulSoup(text, "html.parser")
# Note: The scheme used here is very crude,
# it is recommended to write a separate parser for specific business scenarios
# Parse all URLs
if len(url) < 50:
urls = set()
for link in soup.find_all("a", href=True):
absolute_url = urljoin(base_url, link["href"])
format_url = urlparse(absolute_url)
# only record same domain links
if not format_url.netloc or format_url.netloc != domain:
# remove hash fragment
absolute_url = f"{format_url.scheme}://{format_url.netloc}{format_url.path}{format_url.params}{format_url.query}"
if absolute_url != url:
if len(urls) > 24:"{url} is more like an article list page, find {len(urls)} urls with the same netloc")
return 1, urls
# 3. try to use gne to extract the information
result = extractor.extract(text)
if 'meta' in result:
del result['meta']
if result['title'].startswith('服务器错误') or result['title'].startswith('您访问的页面') or result[
'title'].startswith('403') \
or result['content'].startswith('This website uses cookies') or result['title'].startswith('出错了'):
logger.warning(f"can not get {url} from the Internet")
return -7, {}
if len(result['title']) < 4 or len(result['content']) < 24:"gne extract not good: {result}")
result = None
except Exception as e:"gne extract error: {e}")
result = None
# 4. try to use a llm to analysis the html
if not result:
html_text = text_from_soup(soup)
html_lines = html_text.split('\n')
html_lines = [line.strip() for line in html_lines if line.strip()]
html_text = "\n".join(html_lines)
if len(html_text) > 29999:"{url} content too long for llm parsing")
return 0, {}
if not html_text or html_text.startswith('服务器错误') or html_text.startswith(
'您访问的页面') or html_text.startswith('403') \
or html_text.startswith('出错了'):
logger.warning(f"can not get {url} from the Internet")
return -7, {}
messages = [
{"role": "system", "content": sys_info},
{"role": "user", "content": html_text}
llm_output = openai_llm(messages, model=model, logger=logger, temperature=0.01)
result = json_repair.repair_json(llm_output, return_objects=True)
logger.debug(f"decoded_object: {result}")
if not isinstance(result, dict):
logger.debug("failed to parse from llm output")
return 0, {}
if 'title' not in result or 'content' not in result:
logger.debug("llm parsed result not good")
return 0, {}
# Extract the picture link, it will be empty if it cannot be extracted.
image_links = []
images = soup.find_all("img")
for img in images:
image_links.append(urljoin(base_url, img["src"]))
except KeyError:
result["images"] = image_links
# Extract the author information, if it cannot be extracted, it will be empty.
author_element = soup.find("meta", {"name": "author"})
if author_element:
result["author"] = author_element["content"]
result["author"] = ""
# 5. post process
date_str = extract_and_convert_dates(result.get('publish_time', ''))
if date_str:
result['publish_time'] = date_str
result['publish_time'] = datetime.strftime(, "%Y%m%d")
from_site = domain.replace('www.', '')
from_site = from_site.split('.')[0]
result['content'] = f"[from {from_site}] {result['content']}"
meta_description = soup.find("meta", {"name": "description"})
if meta_description:
result['abstract'] = f"[from {from_site}] {meta_description['content'].strip()}"
result['abstract'] = ''
except Exception:
result['abstract'] = ''
result['url'] = url
return 11, result

View File

@ -1,129 +0,0 @@
# -*- coding: utf-8 -*-
from typing import Union
import httpx
from bs4 import BeautifulSoup
from datetime import datetime
import re
import asyncio
header = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Chrome/ Safari/604.1 Edg/'}
async def mp_crawler(url: str, logger) -> tuple[int, Union[set, dict]]:
if not url.startswith('') and not url.startswith(''):
logger.warning(f'{url} is not a mp url, you should not use this function')
return -5, {}
url = url.replace("http://", "https://", 1)
async with httpx.AsyncClient() as client:
for retry in range(2):
response = await client.get(url, headers=header, timeout=30)
except Exception as e:
if retry < 1:"{e}\nwaiting 1min")
await asyncio.sleep(60)
return -7, {}
soup = BeautifulSoup(response.text, 'html.parser')
if url.startswith(''):
# 文章目录
urls = {li.attrs['data-link'].replace("http://", "https://", 1) for li in soup.find_all('li', class_='album__list-item')}
simple_urls = set()
for url in urls:
cut_off_point = url.find('chksm=')
if cut_off_point != -1:
url = url[:cut_off_point - 1]
return 1, simple_urls
# Get the original release date first
pattern = r"var createTime = '(\d{4}-\d{2}-\d{2}) \d{2}:\d{2}'"
match =, response.text)
if match:
date_only =
publish_time = date_only.replace('-', '')
publish_time = datetime.strftime(, "%Y%m%d")
# Get description content from < meta > tag
meta_description = soup.find('meta', attrs={'name': 'description'})
summary = meta_description['content'].strip() if meta_description else ''
# card_info = soup.find('div', id='img-content')
# Parse the required content from the < div > tag
rich_media_title = soup.find('h1', id='activity-name').text.strip() \
if soup.find('h1', id='activity-name') \
else soup.find('h1', class_='rich_media_title').text.strip()
profile_nickname = soup.find('div', class_='wx_follow_nickname').text.strip()
except Exception as e:
logger.warning(f"not mp format: {url}\n{e}")
# For types, mp_crawler won't work, and most likely neither will the other two
return -7, {}
if not rich_media_title or not profile_nickname:
logger.warning(f"failed to analysis {url}, no title or profile_nickname")
return -7, {}
# Parse text and image links within the content interval
# Todo This scheme is compatible with picture sharing MP articles, but the pictures of the content cannot be obtained,
# because the structure of this part is completely different, and a separate analysis scheme needs to be written
# (but the proportion of this type of article is not high).
texts = []
images = set()
content_area = soup.find('div', id='js_content')
if content_area:
# 提取文本
for section in content_area.find_all(['section', 'p'], recursive=False): # 遍历顶级section
text = section.get_text(separator=' ', strip=True)
if text and text not in texts:
for img in content_area.find_all('img', class_='rich_pages wxw-img'):
img_src = img.get('data-src') or img.get('src')
if img_src:
cleaned_texts = [t for t in texts if t.strip()]
content = '\n'.join(cleaned_texts)
logger.warning(f"failed to analysis contents {url}")
return 0, {}
if content:
content = f"[from {profile_nickname}]{content}"
# If the content does not have it, but the summary has it, it means that it is an mp of the picture sharing type.
# At this time, you can use the summary as the content.
content = f"[from {profile_nickname}]{summary}"
# Get links to images in meta property = "og: image" and meta property = "twitter: image"
og_image = soup.find('meta', property='og:image')
twitter_image = soup.find('meta', property='twitter:image')
if og_image:
if twitter_image:
if rich_media_title == summary or not summary:
abstract = ''
abstract = f"[from {profile_nickname}]{rich_media_title}——{summary}"
return 11, {
'title': rich_media_title,
'author': profile_nickname,
'publish_time': publish_time,
'abstract': abstract,
'content': content,
'images': list(images),
'url': url,

set -o allexport
source ../.env
set +o allexport
exec uvicorn backend:app --reload --host localhost --port 8077

View File

@ -1 +0,0 @@
pb/pocketbase serve

View File

@ -1,5 +0,0 @@
set -o allexport
source ../.env
set +o allexport
exec python

import asyncio
from insights import pipeline, pb, logger
from general_process import crawler, pb, wiseflow_logger
counter = 1
async def process_site(site, counter):
if not site['per_hours'] or not site['url']:
if counter % site['per_hours'] == 0:"applying {site['url']}")
await pipeline(site['url'].rstrip('/'))
async def schedule_pipeline(interval):
global counter
while True:'task execute loop {counter}')
sites ='sites', filter='activated=True')'task execute loop {counter}')
await asyncio.gather(*[process_site(site, counter) for site in sites])
todo_urls = set()
for site in sites:
if not site['per_hours'] or not site['url']:
if counter % site['per_hours'] == 0:"applying {site['url']}")
counter += 1'task execute loop finished, work after {interval} seconds')
await'task execute loop finished, work after {interval} seconds')
await asyncio.sleep(interval)

from urllib.parse import urlparse
import os
import re
import jieba
# import jieba
from loguru import logger
def isURL(string):
@ -71,36 +72,28 @@ def extract_and_convert_dates(input_string):
if matches:
if matches:
return ''.join(matches[0])
return '-'.join(matches[0])
return None
def get_logger_level() -> str:
level_map = {
'silly': 'CRITICAL',
'verbose': 'DEBUG',
'info': 'INFO',
'warn': 'WARNING',
'error': 'ERROR',
level: str = os.environ.get('WS_LOG', 'info').lower()
if level not in level_map:
raise ValueError(
'WiseFlow LOG should support the values of `silly`, '
'`verbose`, `info`, `warn`, `error`'
return level_map.get(level, 'info')
def get_logger(logger_name: str, logger_file_path: str):
level = 'DEBUG' if os.environ.get("VERBOSE", "").lower() in ["true", "1"] else 'INFO'
logger_file = os.path.join(logger_file_path, f"{logger_name}.log")
if not os.path.exists(logger_file_path):
logger.add(logger_file, level=level, backtrace=True, diagnose=True, rotation="50 MB")
return logger
def compare_phrase_with_list(target_phrase, phrase_list, threshold):
def compare_phrase_with_list(target_phrase, phrase_list, threshold):
Compare the similarity of a target phrase to each phrase in the phrase list.
: Param target_phrase: target phrase (str)
: Param phrase_list: list of str
: param threshold: similarity threshold (float)
: Return: list of phrases that satisfy the similarity condition (list of str)
if not target_phrase:
return [] # The target phrase is empty, and the empty list is returned directly.
@ -112,3 +105,4 @@ def compare_phrase_with_list(target_phrase, phrase_list, threshold):
if len(target_tokens & tokens) / min(len(target_tokens), len(tokens)) > threshold]
return similar_phrases

def read(self, collection_name: str, fields: Optional[List[str]] = None, filter: str = '', skiptotal: bool = True) -> list:
results = []
for i in range(1, 10):
i = 1
while True:
res = self.client.collection(collection_name).get_list(i, 500,
{"filter": filter,
@ -44,6 +45,7 @@ class PbTalker:
for _res in res.items:
attributes = vars(_res)
i += 1
return results
def add(self, collection_name: str, body: Dict) -> str:

**Included Web Dashboard Example**: This is optional. If you only use the data processing functions or have your own downstream task program, you can ignore everything in this folder!
**预计在 V0.3.9 版本提供完整的用户侧api目前这里只是参考**
## Main Features
API 并不直接与 Core 关联api 也是针对数据存储(包含用户设置存储)进行操作,所以这里并不影响你直接使用 core。
1.Daily Insights Display
2.Daily Article Display
3.Appending Search for Specific Hot Topics (using Sogou engine)
4.Generating Word Reports for Specific Hot Topics
初始版本 API 预计包含:
**Note: The code here cannot be used directly. It is adapted to an older version of the backend. You need to study the latest backend code in the `core` folder and make changes, especially in parts related to database integration!**
附带的web Dashboard 示例,并非必须,如果你只是使用数据处理功能,或者你有自己的下游任务程序,可以忽略这个文件夹内的一切!
## 主要功能
1. 每日insights展示
2. 每日文章展示
3. 指定热点追加搜索使用sougou引擎
4. 指定热点生成word报告
## 主な機能
1. 毎日のインサイト表示
2. 毎日の記事表示
3. 特定のホットトピックの追加検索Sogouエンジンを使用
4. 特定のホットトピックのWordレポートの生成
**Exemple de tableau de bord Web inclus** : Ceci est facultatif. Si vous n'utilisez que les fonctions de traitement des données ou si vous avez votre propre programme de tâches en aval, vous pouvez ignorer tout ce qui se trouve dans ce dossier !
## Fonctions principales
1. Affichage des insights quotidiens
2. Affichage des articles quotidiens
3. Recherche supplémentaire pour des sujets populaires spécifiques (en utilisant le moteur Sogou)
4. Génération de rapports Word pour des sujets populaires spécifiques
**Remarque : Le code ici ne peut pas être utilisé directement. Il est adapté à une version plus ancienne du backend. Vous devez étudier le code backend le plus récent dans le dossier `core` et apporter des modifications, en particulier dans les parties relatives à l'intégration de la base de données !**
**Beispiel eines enthaltenen Web-Dashboards**: Dies ist optional. Wenn Sie nur die Datenverarbeitungsfunktionen verwenden oder Ihr eigenes Downstream-Aufgabenprogramm haben, können Sie alles in diesem Ordner ignorieren!
## Hauptfunktionen
1. Tägliche Einblicke anzeigen
2. Tägliche Artikel anzeigen
3. Angehängte Suche nach spezifischen Hot Topics (unter Verwendung der Sogou-Suchmaschine)
4. Erstellen von Word-Berichten für spezifische Hot Topics
**Hinweis: Der Code hier kann nicht direkt verwendet werden. Er ist an eine ältere Version des Backends angepasst. Sie müssen den neuesten Backend-Code im `core`-Ordner studieren und Änderungen vornehmen, insbesondere in den Teilen, die die Datenbankintegration betreffen!**
- 信源的增删改查;
- 兴趣点的增删改查;
- insights 的读取和查找;
- 文章的读取和查找;
- 简单的报告生成功能;
- 原始资料的翻译等。

View File

@ -22,7 +22,7 @@ class BackendService:
def report(self, insight_id: str, topics: list[str], comment: str) -> dict:
logger.debug(f'got new report request insight_id {insight_id}')
insight ='insights', filter=f'id="{insight_id}"')
insight ='agents', filter=f'id="{insight_id}"')
if not insight:
logger.error(f'insight {insight_id} not found')
return self.build_out(-2, 'insight not found')
@ -52,7 +52,7 @@ class BackendService:
if flag:
file = open(docx_file, 'rb')
message = pb.upload('insights', insight_id, 'docx', f'{insight_id}.docx', file)
message = pb.upload('agents', insight_id, 'docx', f'{insight_id}.docx', file)
if message:
logger.debug(f'report success finish and update to: {message}')
@ -143,7 +143,7 @@ class BackendService:
def more_search(self, insight_id: str) -> dict:
logger.debug(f'got search request for insight {insight_id}')
insight ='insights', filter=f'id="{insight_id}"')
insight ='agents', filter=f'id="{insight_id}"')
if not insight:
logger.error(f'insight {insight_id} not found')
return self.build_out(-2, 'insight not found')
@ -169,7 +169,7 @@ class BackendService:
with open(os.path.join(self.cache_url, 'cache_articles.json'), 'a', encoding='utf-8') as f:
json.dump(item, f, ensure_ascii=False, indent=4)
message = pb.update(collection_name='insights', id=insight_id, body={'articles': article_ids})
message = pb.update(collection_name='agents', id=insight_id, body={'articles': article_ids})
if message:
logger.debug(f'insight search success finish and update to: {message}')
return self.build_out(11, insight_id)

from pydantic import BaseModel
from typing import Literal, Optional
from fastapi.middleware.cors import CORSMiddleware
from insights import message_manager
# backend的操作也应该是针对 pb 操作的,即添加信源、兴趣点等都应该存入 pb而不是另起一个进程实例
# 当然也可以放弃 pb但那是另一个问题数据和设置的管理应该是一套
# 简单说用户侧api dashboard等和 core侧 不应该直接对接都应该通过底层的data infrastructure 进行
class Request(BaseModel):
Input model

export LLM_API_KEY=""
export LLM_API_BASE="" ##for local model services or calling non-OpenAI services with openai_wrapper
##strongly recommended to use the following model provided by siliconflow (consider both effect and price)
export GET_INFO_MODEL="THUDM/glm-4-9b-chat" ##
export REWRITE_MODEL="Qwen/Qwen2-7B-Instruct"
export HTML_PARSE_MODEL="aQwen/Qwen2-7B-Instruct"
export LLM_API_BASE=""
export PB_API_AUTH="|1234567890" ##your pb superuser account and password
##belowing is optional, go as you need
#export VERBOSE="true" ##for detail log info. If not need, remove this item.
#export PRIMARY_MODEL="Qwen/Qwen2.5-14B-Instruct"
#export SECONDARY_MODEL="THUDM/glm-4-9b-chat"
export PROJECT_DIR="work_dir"
export PB_API_AUTH="|1234567890"
# export "PB_API_BASE"="" ##only use if your pb not run on
export WS_LOG="verbose" ##for detail log info. If not need, just delete this item.
@ -0,0 +1,9 @@
cd pb
xattr -d pocketbase # for Macos
./pocketbase migrate up # for first run
./pocketbase --dev admin create 1234567890 # If you don't have an initial account, please use this command to create it
./pocketbase serve

/// <reference path="../pb_data/types.d.ts" />
migrate((app) => {
const collection = new Collection({
"createRule": null,
"deleteRule": null,
"fields": [
"autogeneratePattern": "[a-z0-9]{15}",
"hidden": false,
"id": "text3208210256",
"max": 15,
"min": 15,
"name": "id",
"pattern": "^[a-z0-9]+$",
"presentable": false,
"primaryKey": true,
"required": true,
"system": true,
"type": "text"
"autogeneratePattern": "",
"hidden": false,
"id": "text2695655862",
"max": 0,
"min": 0,
"name": "focuspoint",
"pattern": "",
"presentable": false,
"primaryKey": false,
"required": false,
"system": false,
"type": "text"
"autogeneratePattern": "",
"hidden": false,
"id": "text2284106510",
"max": 0,
"min": 0,
"name": "explanation",
"pattern": "",
"presentable": false,
"primaryKey": false,
"required": false,
"system": false,
"type": "text"
"hidden": false,
"id": "bool806155165",
"name": "activated",
"presentable": false,
"required": false,
"system": false,
"type": "bool"
"hidden": false,
"id": "autodate2990389176",
"name": "created",
"onCreate": true,
"onUpdate": false,
"presentable": false,
"system": false,
"type": "autodate"
"hidden": false,
"id": "autodate3332085495",
"name": "updated",
"onCreate": true,
"onUpdate": true,
"presentable": false,
"system": false,
"type": "autodate"
"id": "pbc_3385864241",
"indexes": [],
"listRule": null,
"name": "focus_points",
"system": false,
"type": "base",
"updateRule": null,
"viewRule": null
}, (app) => {
const collection = app.findCollectionByNameOrId("pbc_3385864241");
return app.delete(collection);

View File

@ -0,0 +1,42 @@
/// <reference path="../pb_data/types.d.ts" />
migrate((app) => {
const collection = app.findCollectionByNameOrId("pbc_3385864241")
// update field
collection.fields.addAt(1, new Field({
"autogeneratePattern": "",
"hidden": false,
"id": "text2695655862",
"max": 0,
"min": 0,
"name": "focuspoint",
"pattern": "",
"presentable": false,
"primaryKey": false,
"required": true,
"system": false,
"type": "text"
}, (app) => {
const collection = app.findCollectionByNameOrId("pbc_3385864241")
// update field
collection.fields.addAt(1, new Field({
"autogeneratePattern": "",
"hidden": false,
"id": "text2695655862",
"max": 0,
"min": 0,
"name": "focuspoint",
"pattern": "",
"presentable": false,
"primaryKey": false,
"required": false,
"system": false,
"type": "text"

/// <reference path="../pb_data/types.d.ts" />
migrate((app) => {
const collection = new Collection({
"createRule": null,
"deleteRule": null,
"fields": [
"autogeneratePattern": "[a-z0-9]{15}",
"hidden": false,
"id": "text3208210256",
"max": 15,
"min": 15,
"name": "id",
"pattern": "^[a-z0-9]+$",
"presentable": false,
"primaryKey": true,
"required": true,
"system": true,
"type": "text"
"exceptDomains": [],
"hidden": false,
"id": "url4101391790",
"name": "url",
"onlyDomains": [],
"presentable": false,
"required": true,
"system": false,
"type": "url"
"hidden": false,
"id": "number1152796692",
"max": null,
"min": null,
"name": "per_hours",
"onlyInt": false,
"presentable": false,
"required": false,
"system": false,
"type": "number"
"hidden": false,
"id": "bool806155165",
"name": "activated",
"presentable": false,
"required": false,
"system": false,
"type": "bool"
"hidden": false,
"id": "autodate2990389176",
"name": "created",
"onCreate": true,
"onUpdate": false,
"presentable": false,
"system": false,
"type": "autodate"
"hidden": false,
"id": "autodate3332085495",
"name": "updated",
"onCreate": true,
"onUpdate": true,
"presentable": false,
"system": false,
"type": "autodate"
"id": "pbc_2001081480",
"indexes": [],
"listRule": null,
"name": "sites",
"system": false,
"type": "base",
"updateRule": null,
"viewRule": null
}, (app) => {
const collection = app.findCollectionByNameOrId("pbc_2001081480");
return app.delete(collection);

/// <reference path="../pb_data/types.d.ts" />
migrate((app) => {
const collection = new Collection({
"createRule": null,
"deleteRule": null,
"fields": [
"autogeneratePattern": "[a-z0-9]{15}",
"hidden": false,
"id": "text3208210256",
"max": 15,
"min": 15,
"name": "id",
"pattern": "^[a-z0-9]+$",
"presentable": false,
"primaryKey": true,
"required": true,
"system": true,
"type": "text"
"autogeneratePattern": "",
"hidden": false,
"id": "text4274335913",
"max": 0,
"min": 0,
"name": "content",
"pattern": "",
"presentable": false,
"primaryKey": false,
"required": true,
"system": false,
"type": "text"
"cascadeDelete": false,
"collectionId": "pbc_3385864241",
"hidden": false,
"id": "relation59357059",
"maxSelect": 1,
"minSelect": 0,
"name": "tag",
"presentable": false,
"required": false,
"system": false,
"type": "relation"
"hidden": false,
"id": "file3291445124",
"maxSelect": 1,
"maxSize": 0,
"mimeTypes": [],
"name": "report",
"presentable": false,
"protected": false,
"required": false,
"system": false,
"thumbs": [],
"type": "file"
"hidden": false,
"id": "autodate2990389176",
"name": "created",
"onCreate": true,
"onUpdate": false,
"presentable": false,
"system": false,
"type": "autodate"
"hidden": false,
"id": "autodate3332085495",
"name": "updated",
"onCreate": true,
"onUpdate": true,
"presentable": false,
"system": false,
"type": "autodate"
"id": "pbc_629947526",
"indexes": [],
"listRule": null,
"name": "infos",
"system": false,
"type": "base",
"updateRule": null,
"viewRule": null
}, (app) => {
const collection = app.findCollectionByNameOrId("pbc_629947526");
return app.delete(collection);

/// <reference path="../pb_data/types.d.ts" />
migrate((app) => {
const collection = app.findCollectionByNameOrId("pbc_629947526")
// add field
collection.fields.addAt(4, new Field({
"exceptDomains": [],
"hidden": false,
"id": "url4101391790",
"name": "url",
"onlyDomains": [],
"presentable": false,
"required": true,
"system": false,
"type": "url"
// add field
collection.fields.addAt(5, new Field({
"hidden": false,
"id": "file1486429761",
"maxSelect": 1,
"maxSize": 0,
"mimeTypes": [],
"name": "screenshot",
"presentable": false,
"protected": false,
"required": false,
"system": false,
"thumbs": [],
"type": "file"
}, (app) => {
const collection = app.findCollectionByNameOrId("pbc_629947526")

/// <reference path="../pb_data/types.d.ts" />
migrate((app) => {
const collection = app.findCollectionByNameOrId("pbc_3385864241")
// update field
collection.fields.addAt(1, new Field({
"autogeneratePattern": "",
"hidden": false,
"id": "text2695655862",
"max": 0,
"min": 0,
"name": "focuspoint",
"pattern": "",
"presentable": true,
"primaryKey": false,
"required": true,
"system": false,
"type": "text"
}, (app) => {
const collection = app.findCollectionByNameOrId("pbc_3385864241")
// update field
collection.fields.addAt(1, new Field({
"autogeneratePattern": "",
"hidden": false,
"id": "text2695655862",
"max": 0,
"min": 0,
"name": "focuspoint",
"pattern": "",
"presentable": false,
"primaryKey": false,
"required": true,
"system": false,
"type": "text"

