update reademe

This commit is contained in:
bigbrother666sh 2024-11-23 15:53:18 +08:00
parent 13131cd88b
commit 2e01ba5ba7
5 changed files with 123 additions and 104 deletions

View File

@ -4,7 +4,27 @@
🚀 **首席情报官**Wiseflow是一个敏捷的信息挖掘工具可以从网站、微信公众号、社交平台等各种信息源中按设定的关注点提炼讯息自动做标签归类并上传数据库。
**我们缺的其实不是信息,我们需要的是从海量信息中过滤噪音,从而让有价值的信息显露出来**
**我们缺的不是信息,而是从海量信息中过滤噪音,从而让有价值的信息显露出来**
## 🔥 V0.3.8版本预告
wiseflow 预计将在2024.12月底前正式升级到0.3.8版本,这也将是 V0.3.x 架构下的最终版本(除非有足够多的小修改,否则不会有 V0.3.9版本)
计划中的升级内容包括:
- 大幅升级 general_crawler引入诸多最新开源技术方案, 进一步提升页面适配覆盖度以及实现完全的本地 CPU 计算(意味着无需再为此配置 LLM 选项);
- 改进general_crawler 从列表页面提取 url 的能力,以及列表页面与普通文章页面的区分能力;
- 尝试引入新的 mp_crawler, 公众号文章监控无需wxbot
- 测试并推荐新的信息提取 llm model并微调提取策略。
视情况可能添加的特性:
- 引入对 RSS 信息源的支持;
- 引入对社交平台的支持(初期这一块会十分简陋,请不要太多期待)
上述内容会逐步提前释放到 dev 分支,欢迎切换尝鲜,并积极反馈 issue。
-----------------------------
🌱看看首席情报官是如何帮您节省时间,过滤无关信息,并整理关注要点的吧!🌱
@ -16,18 +36,21 @@ https://github.com/TeamWiseFlow/wiseflow/assets/96130569/bd4b2091-c02d-4457-9ec6
<img alt="sample.png" src="asset/sample.png" width="1024"/>
## 🔥 隆重推荐整合了完整RAG能力的 wiseflow 下游应用项目 [awada](https://github.com/TeamWiseFlow/awada) 1.x
## ✋ wiseflow 与常见的爬虫工具、AI搜索、知识库RAG项目有何不同
Awada 是一个基于微信生态的团队内知识助理智能体。它可以从群聊、公众号、网站等来源中进行在线自主学习同时也接受自主文档上传打造团队私域知识库并为团队成员提供问答、资料查找以及写作Word服务。
承蒙大家的厚爱wiseflow自2024年6月底发布 V0.3.0版本来受到了开源社区的广泛关注,甚至吸引了不少自媒体的主动报道,在此首先表示感谢!
如果你的关注点并不是信息列表,而是基于信息的下游应用,那么 awada 将是一个不错的选择。
但我们也注意到部分关注者对 wiseflow 的功能定位存在一些理解偏差,为免误会,我们制作了如下表格,清晰展示 wiseflow 与爬虫、AI搜索、知识库RAG类项目的对比
Awada 整合了 wiseflow 的在线学习能力和 [Qanything](https://github.com/netease-youdao/QAnything) 的 RAG 能力,**如果你更加关注基于微信生态的信息搜集(比如公众号文章),也请参考 awada项目**
| | **首席情报官Wiseflow** |
|-------------|-----------------|
| **爬虫类工具** | wiseflow 集成了很多优秀的开源爬虫工具,并增加了基于 LLM 的自动化信息过滤、筛选与分类能力,所以可以简单认为 wiseflow = 爬虫工具 + AI |
| **AI搜索** | AI搜索主要的应用场景是**具体问题的即时问答**举例”XX公司的创始人是谁“、“xx品牌下的xx产品哪里有售” wiseflow主要的应用场景是**某一方面信息的持续采集**比如XX公司的关联信息追踪XX品牌市场行为的持续追踪……在这些场景下用户只能提供关注点某公司、某品牌但无法提出具体搜索问题且并不是一次检索而是需要持续追踪或者自动化进行关联追踪您可以简单的把wiseflow理解为一个可持续自动进行 ai 搜索的“智能体”,即 “AI 情报官” |
| **知识库RAG类项目** | 知识库RAG类项目一般是基于已有信息的下游任务并且一般面向的是私有知识比如企业内的操作手册、产品手册、政府部门的文件等wiseflow 目前并未整合下游任务,同时面向的是互联网上的公开信息 |
## V0.3.1 更新
## 🔄 V0.3.1 更新
dashboard 部分已经删除如果您有dashboard需求请下载 [V0.2.1版本](https://github.com/TeamWiseFlow/wiseflow/releases/tag/V0.2.1)
👏 虽然部分9b大小的LLMTHUDM/glm-4-9b-chat已经可以实现稳定的信息提取输出但是我们发现对于复杂含义的tag比如“党建”或者需要特指的tag比如仅需采集“居民区活动”而不希望包括诸如演唱会这样的大型活动信息
使用目前的prompt还是不能进行准确的提取因此我们在这一版本中为每个tag增加了explaination字段可以通过输入该字段进行更加清晰的tag指定。
@ -36,26 +59,11 @@ dashboard 部分已经删除如果您有dashboard需求请下载 [V0.2.1
👏 另外针对上一版本prompt语言选择的问题虽然这并不影响输出结果我们在目前版本中进一步简化了方案用户无需指定系统语言这在docker中并不那么直观系统会根据tag以及tag的explaination判断选择何种语言的
prompt也就决定了info的输出语言这进一步简化了wiseflow的部署和使用。【不过目前wiseflow仅支持简体中文和英文两种语言其他语言的需求可以通过更改 core/insights/get_info.py 中的prompt实现】
🌹另外本次更新合并了过去两个月的PR本次新增contributor如下
@wwz223 @madizm @GuanYixuan @xnp2020 @JimmyMa99
🌹 感谢大家的贡献!
## 🔄 wiseflow 与常见的爬虫工具、LLM-Agent类项目有何不同与关联
| 特点 | 首席情报官Wiseflow | Crawler / Scraper | LLM-Agent |
|-------------|-----------------|---------------------------------------|----------------------|
| **主要解决的问题** | 数据处理(筛选、提炼、贴标签) | 原始数据获取 | 下游应用 |
| **关联** | | 可以集成至WiseFlow使wiseflow具有更强大的原始数据获取能力 | 可以集成WiseFlow作为动态知识库 |
## 🌟 如何在您的应用中整合wiseflow
wiseflow是一个原生的LLM应用仅需7B~9B大小LLM就可以很好的执行信息挖掘、过滤与分类任务且无需向量模型系统开销很小适合各种硬件环境下的本地化以及私有化部署。
### ✋如果您的应用只需要使用wiseflow挖掘出的数据即您的应用作为wiseflow的下游任务
wiseflow将挖掘出的信息存储于自带的Pocketbase数据库中这意味着这种情况下您无需了解wiseflow的代码只需要对数据库进行读取操作即可
PocketBase作为流行的轻量级数据库目前已有 Go/Javascript/Python 等语言的SDK。
@ -63,10 +71,6 @@ PocketBase作为流行的轻量级数据库目前已有 Go/Javascript/Python
- Javascript : https://pocketbase.io/docs/js-overview/
- python : https://github.com/vaphes/pocketbase
### ✋如果您想将wiseflow作为实时的信息处理工具即wiseflow作为您应用的下游任务
可以参考我们的一个示例项目 —— 基于微信的可在线自主学习的个人AI助理也可能是行业专家[awada](https://github.com/TeamWiseFlow/awada)
## 📥 安装与使用
### 1. 克隆代码仓库
@ -115,7 +119,6 @@ pip install -r requirements.txt
- 需要先去这里 https://pocketbase.io/docs/ 下载对应自己设备的pocketbase客户端并放置在 /core/pb 目录下
- pb运行问题包括首次运行报错等参考 [core/pb/README.md](/core/pb/README.md)
- 使用前请创建并编辑.env文件放置在wiseflow代码仓根目录core目录的上级.env文件可以参考env_sample详细配置说明见下
📚 for developer see [/core/README.md](/core/README.md) for more

View File

@ -4,9 +4,29 @@
🚀 **Chief Intelligence Officer** (Wiseflow) is an agile information mining tool that can extract information from various sources such as websites, WeChat official accounts, social platforms, etc., based on set focus points, automatically categorize with labels, and upload to a database.
**What we lack is not information, but the ability to filter out noise from the vast amount of information to reveal valuable information.**
**We lack not information, but the ability to filter out noise from vast amounts of information, thereby revealing valuable information.**
🌱 See how Chief Intelligence Officer helps you save time, filter out irrelevant information, and organize key points of interest! 🌱
## 🔥 V0.3.8 Version Preview
wiseflow is expected to officially upgrade to version 0.3.8 by the end of December 2024, which will be the final version under the V0.3.x architecture (unless there are enough minor modifications, there will be no V0.3.9 version).
Planned upgrade content includes:
- Significantly upgrade general_crawler (introducing many latest open-source technology solutions), further improving page adaptation coverage and achieving full local CPU computing (meaning no need to configure LLM options for this);
- Improve general_crawler's ability to extract URLs from list pages, as well as the distinction between list pages and ordinary article pages;
- Attempt to introduce a new mp_crawler, eliminating the need for wxbot in monitoring WeChat official account articles;
- Test and recommend new information extraction llm models, and fine-tune extraction strategies.
Features that may be added depending on the situation:
- Introduce support for RSS information sources;
- Introduce support for social platforms (initially this will be very rudimentary, so don't expect too much).
The above content will be gradually released to the dev branch in advance, welcome to switch and try it out, and actively provide feedback on issues.
-----------------------------
🌱 See how wiseflow helps you save time, filter out irrelevant information, and organize key points of interest! 🌱
- ✅ Universal web content parser, comprehensively using statistical learning (dependent on the open-source project GNE) and LLM, suitable for over 90% of news pages;
- ✅ Asynchronous task architecture;
@ -16,15 +36,19 @@ https://github.com/TeamWiseFlow/wiseflow/assets/96130569/bd4b2091-c02d-4457-9ec6
<img alt="sample.png" src="asset/sample.png" width="1024"/>
## 🔥 Highly Recommended Downstream Application Project [awada](https://github.com/TeamWiseFlow/awada) 1.x with Full RAG Capabilities Integrated
## ✋ How is wiseflow Different from Common Web Crawling Tools, AI Search, and Knowledge Base (RAG) Projects?
Awada is an intelligent agent for team knowledge within the WeChat ecosystem. It can autonomously learn online from sources such as group chats, official accounts, websites, and also accepts manual document uploads, creating a private knowledge base for the team. It provides services such as Q&A, material search, and writing (Word) for team members.
Thanks to everyone's love, wiseflow has received extensive attention from the open-source community since the release of version V0.3.0 at the end of June 2024, and has even attracted active reports from many self-media. We would like to express our gratitude first!
If your focus is not on the information list but on downstream applications based on information, then awada is a good choice.
However, we have also noticed that some followers have some misunderstandings about the functional positioning of wiseflow. To avoid confusion, we have created the following table to clearly show the comparison between wiseflow and web crawling tools, AI search, and knowledge base (RAG) projects:
Awada integrates the online learning capabilities of wiseflow and the RAG capabilities of [Qanything](https://github.com/netease-youdao/QAnything). **If you are more concerned with information collection within the WeChat ecosystem (such as official account articles), please also refer to the awada project**.
| | **Chief Intelligence Officer (Wiseflow)** |
|-------------|-----------------|
| **Web Crawling Tools** | wiseflow integrates many excellent open-source web crawling tools and adds automated information filtering, screening, and classification capabilities based on LLM, so it can be simply considered that wiseflow = web crawling tool + AI |
| **AI Search** | AI search's main application scenario is **instant question answering for specific issues**, for example: "Who is the founder of XX company" or "Where can I buy the xx product under the xx brand"; wiseflow's main application scenario is **continuous collection of information in a certain aspect**, such as tracking related information of XX company, continuous tracking of market behavior of XX brand... In these scenarios, users can only provide focus points (a company, a brand), but cannot pose specific search questions, and it is not a one-time search, but requires continuous tracking, or automated related tracking. You can simply understand wiseflow as a "smart agent" that can automatically conduct AI searches continuously, i.e., an "AI intelligence officer" |
| **Knowledge Base (RAG) Projects** | Knowledge base (RAG) projects are generally downstream tasks based on existing information and usually face private knowledge (such as operation manuals, product manuals within enterprises, government documents, etc.); wiseflow currently does not integrate downstream tasks and faces public information on the internet |
## V0.3.1 Update
## 🔄 V0.3.1 Update
The dashboard part has been removed. If you have a dashboard requirement, please download the [V0.2.1 version](https://github.com/TeamWiseFlow/wiseflow/releases/tag/V0.2.1).
@ -35,24 +59,10 @@ the current prompts cannot perform accurate extraction. Therefore, in this versi
👏 Additionally, addressing the issue of prompt language selection in the previous version (which does not affect the output results), we have further simplified the solution in the current version. Users no longer need to specify the system language (which is not so intuitive in Docker), the system will determine the language of the prompt (and thus the output language of the info) based on the tag and its explanation, further simplifying the deployment and use of wiseflow. **However, currently wiseflow only supports Simplified Chinese and English, other language needs can be achieved by changing the prompt in core/insights/get_info.py**
🌹 Also, this update merges PRs from the past two months, with the following new contributors:
@wwz223 @madizm @GuanYixuan @xnp2020 @JimmyMa99
🌹 Thank you all for your contributions!
## 🔄 How is wiseflow Different and Related to Common Crawler Tools and LLM-Agent Projects?
| Characteristic | Chief Intelligence Officer (Wiseflow) | Crawler / Scraper | LLM-Agent |
|----------------|--------------------------------------|-------------------|-----------|
| **Main Problem Solved** | Data Processing (Filtering, Refining, Tagging) | Raw Data Acquisition | Downstream Applications |
| **Relation** | | Can be integrated into WiseFlow, giving wiseflow stronger raw data acquisition capabilities | Can integrate WiseFlow as a dynamic knowledge base |
## How to Integrate wiseflow into Your Application
## 🌟 How to Integrate wiseflow into Your Application
wiseflow is a native LLM application that can effectively perform information mining, filtering, and classification tasks with only a 7B-9B LLM. It does not require vector models and has a very small system overhead, making it suitable for localization and private deployment in various hardware environments.
### ✋ If Your Application Only Needs to Use the Data Mined by wiseflow (i.e., Your Application as a Downstream Task of wiseflow)
wiseflow stores the mined information in its built-in Pocketbase database. This means that in this case, you do not need to understand the wiseflow code, and you only need to perform read operations on the database!
PocketBase, as a popular lightweight database, currently has SDKs for Go/Javascript/Python languages.
@ -60,11 +70,6 @@ PocketBase, as a popular lightweight database, currently has SDKs for Go/Javascr
- Javascript : https://pocketbase.io/docs/js-overview/
- python : https://github.com/vaphes/pocketbase
### ✋If you want to use wiseflow as a real-time information processing tool, i.e., wiseflow as the downstream task of your application
You can refer to one of our example projects — a WeChat-based personal AI assistant (or possibly an industry expert) for online autonomous learning [awada](https://github.com/TeamWiseFlow/awada)
## 📥 Installation and Usage
### 1. Clone the Repository

View File

@ -4,7 +4,27 @@
🚀 **最高情報責任者**Wiseflowは、ウェブサイト、WeChat公式アカウント、ソーシャルプラットフォームなど、さまざまな情報源から設定された焦点に基づいて情報を抽出し、自動的にラベル付けしてデータベースにアップロードするアジャイルな情報マイニングツールです。
**私たちが欠けているのは情報ではなく、大量の情報からノイズをフィルタリングして価値ある情報を明らかにする能力です。**
**私たちが欠けているのは情報ではなく、大量の情報からノイズをフィルタリングし、価値ある情報を明らかにする能力です。**
## 🔥 V0.3.8バージョン予告
wiseflowは2024年12月末までにバージョン0.3.8に正式にアップグレードされる予定で、これはV0.3.xアーキテクチャ下の最終バージョンとなります十分な小修正がない限り、V0.3.9バージョンはありません)。
計画されたアップグレード内容には以下が含まれます:
- general_crawlerを大幅にアップグレード多くの最新のオープンソース技術ソリューションを導入、ページ適応範囲をさらに向上させ、完全なローカルCPU計算を実現つまり、これにLLMオプションを設定する必要がなくなります
- general_crawlerのリストページからURLを抽出する能力、およびリストページと通常の記事ページを区別する能力を向上させる
- 新しいmp_crawlerを導入し、WeChat公式アカウント記事の監視にwxbotを必要としないようにする試み
- 新しい情報抽出llmモデルをテストし、抽出戦略を微調整する。
状況に応じて追加される可能性のある機能:
- RSS情報源のサポートを導入
- ソーシャルプラットフォームのサポートを導入(初期は非常に基本的なものになりますので、期待しすぎないでください)。
上記の内容はdevブランチに段階的にリリースされますので、切り替えて試してみて、積極的に問題をフィードバックしてください。
-----------------------------
🌱 最高情報責任者がどのようにあなたの時間を節約し、無関係な情報をフィルタリングし、注目すべきポイントを整理するかを見てみましょう! 🌱
@ -16,15 +36,19 @@ https://github.com/TeamWiseFlow/wiseflow/assets/96130569/bd4b2091-c02d-4457-9ec6
<img alt="sample.png" src="asset/sample.png" width="1024"/>
## 🔥 完全統合されたRAG機能を持つ wiseflow の下流アプリケーションプロジェクト [awada](https://github.com/TeamWiseFlow/awada) 1.x を強くお勧めします
## ✋ wiseflowは一般的なクローラーツール、AI検索、知識ベースRAGプロジェクトとどう違うのか
Awada は、WeChatエコシステム内のチーム知識アシスタントインテリジェントエージェントです。グループチャット、公式アカウント、ウェブサイトなどのソースからオンラインで自律的に学習し手動も可能、チームのプライベートナレッジベースを構築し、チームメンバーにQ&A、資料検索、および書き込みWordサービスを提供します。
皆様の厚い愛情に感謝し、wiseflowは2024年6月末にV0.3.0バージョンをリリースして以来、オープンソースコミュニティから広く注目を集め、多くのセルフメディアからの積極的な報道も引き寄せられました。まずは感謝の意を表します!
あなたの焦点が情報リストではなく、情報に基づく下流アプリケーションである場合、awada は良い選択です。
しかし、一部のフォロワーがwiseflowの機能の位置づけについて誤解を持っていることにも気づきました。誤解を避けるために、以下の表を作成し、wiseflowとクローラーツール、AI検索、知識ベースRAGプロジェクトの比較を明確に示します
Awada は、wiseflow のオンライン学習機能と [Qanything](https://github.com/netease-youdao/QAnything) の RAG 機能を統合しています。**WeChatエコシステム内の情報収集例えば公式アカウントの記事により関心がある場合は、awada プロジェクトも参照してください**。
| | **首席情報官Wiseflow** |
|-------------|-----------------|
| **クローラーツール** | wiseflowは多くの優れたオープンソースクローラーツールを統合し、LLMに基づく自動化された情報フィルタリング、選別、分類能力を追加しているため、簡単にwiseflow = クローラーツール + AIと考えることができます |
| **AI検索** | AI検索の主なアプリケーションシナリオは**特定の問題の即時質問応答**であり、例えば「XX会社の創設者は誰ですか」、「xxブランドのxx製品はどこで購入できますか」wiseflowの主なアプリケーションシナリオは**ある特定の情報の継続的な収集**であり、例えばXX会社の関連情報の追跡、XXブランドの市場行動の継続的な追跡……これらのシナリオでは、ユーザーは注目点会社、ブランドを提供することしかできず、具体的な検索質問を立てることはできず、一回限りの検索ではなく、継続的な追跡、または自動化された関連追跡が必要です。wiseflowを、継続的にAI検索を自動的に行う「スマートエージェント」、つまり「AI情報官」と簡単に理解できます |
| **知識ベースRAGプロジェクト** | 知識ベースRAGプロジェクトは通常、既存の情報に基づく下流のタスクであり、通常はプライベートな知識企業内の操作マニュアル、製品マニュアル、政府部門の文書などに対応しますwiseflowは現在、下流のタスクを統合しておらず、インターネット上の公開情報に対応しています |
## V0.3.1 アップデート
## 🔄 V0.3.1 アップデート
ダッシュボード部分は削除されました。ダッシュボードが必要な場合は、[V0.2.1 バージョン](https://github.com/TeamWiseFlow/wiseflow/releases/tag/V0.2.1) をダウンロードしてください。
@ -35,25 +59,10 @@ Awada は、wiseflow のオンライン学習機能と [Qanything](https://githu
👏 また、前バージョンのプロンプト言語選択の問題出力結果には影響しませんに対処し、現在のバージョンではさらにシンプルなソリューションを採用しています。ユーザーはシステム言語を指定する必要がなくなりましたDockerではそれほど直感的ではありません、システムはタグとその説明に基づいてプロンプトの言語つまり情報の出力言語を判断し、wiseflowの展開と使用をさらに簡素化します。**ただし、現在wiseflowは簡体字中国語と英語のみをサポートしており、他の言語のニーズはcore/insights/get_info.pyのプロンプトを変更することで実現できます**
🌹 また、このアップデートでは過去2か月間のPRをマージし、以下の新しい貢献者が追加されました
@wwz223 @madizm @GuanYixuan @xnp2020 @JimmyMa99
🌹 皆さんの貢献に感謝します!
## 🔄 wiseflowと一般的なクローラーツール、LLM-Agentプロジェクトの違いと関連性
| 特徴 | 最高情報責任者Wiseflow | クローラー / スクレイパー | LLM-Agent |
|----------------|--------------------------------------|-------------------|-----------|
| **主な解決課題** | データ処理(フィルタリング、精製、ラベリング) | 生データ取得 | 下流アプリケーション |
| **関連性** | | WiseFlowに統合可能、wiseflowにより強力な生データ取得能力を与える | WiseFlowを動的知識ベースとして統合可能 |
## 🌟 wiseflowをあなたのアプリケーションに統合する方法
wiseflowはネイティブのLLMアプリケーションで、7B〜9BサイズのLLMだけで情報のマイニング、フィルタリング、分類を効果的に行うことができ、ベクトルモデルは不要です。システムオーバーヘッドが非常に小さいため、さまざまなハードウェア環境でのローカルおよびプライベート展開に適しています。
### ✋ あなたのアプリケーションがwiseflowがマイニングしたデータのみを使用する場合、つまりあなたのアプリケーションがwiseflowのダウンストリームタスクである場合
wiseflowはマイニングされた情報を内蔵のPocketbaseデータベースに保存します。つまり、このシナリオではwiseflowのコードを理解する必要はなく、データベースに対して読み取り操作を行うだけです
PocketBaseは人気のある軽量データベースで、現在Go/Javascript/Pythonなどの言語のSDKがあります。
@ -61,9 +70,6 @@ PocketBaseは人気のある軽量データベースで、現在Go/Javascript/Py
- Javascript : https://pocketbase.io/docs/js-overview/
- python : https://github.com/vaphes/pocketbase
### ✋ wiseflowをリアルタイムの情報処理ツールとして使用したい場合、つまりwiseflowをあなたのアプリケーションのダウンストリームタスクとして使用したい場合
私たちのサンプルプロジェクトを参照してください — オンラインで自主学習可能なWeChatベースの個人AIアシスタントまたは業界の専門家[awada](https://github.com/TeamWiseFlow/awada)
## 📥 インストールと使用方法
### 1. リポジトリのクローン

View File

@ -4,7 +4,27 @@
🚀 **수석 정보 책임자** (Wiseflow)는 웹사이트, 위챗 공식 계정, 소셜 플랫폼 등 다양한 정보원에서 설정된 관심사를 기반으로 정보를 추출하고, 자동으로 라벨링하여 데이터베이스에 업로드하는 민첩한 정보 마이닝 도구입니다.
**우리가 부족한 것은 정보가 아니라, 방대한 정보에서 노이즈를 필터링하여 가치 있는 정보를 드러내는 능력입니다.**
**우리가 부족한 것은 정보가 아니라, 방대한 양의 정보에서 노이즈를 필터링하여 가치 있는 정보를 드러내는 능력입니다.**
## 🔥 V0.3.8 버전 예고
wiseflow는 2024년 12월 말까지 버전 0.3.8로 정식 업그레이드될 예정이며, 이는 V0.3.x 아키텍처 하의 최종 버전이 될 것입니다(충분한 사소한 수정이 없는 한, V0.3.9 버전은 없을 것입니다).
계획된 업그레이드 내용은 다음과 같습니다:
- general_crawler를 크게 업그레이드(많은 최신 오픈 소스 기술 솔루션 도입), 페이지 적응 범위를 더욱 향상시키고 완전한 로컬 CPU 계산을 실현(즉, 이를 위해 LLM 옵션을 구성할 필요가 없음);
- general_crawler의 목록 페이지에서 URL을 추출하는 능력, 그리고 목록 페이지와 일반 기사 페이지를 구별하는 능력을 향상시키기;
- 새로운 mp_crawler를 도입하여 웨이신 공식 계정 기사 모니터링에 wxbot가 필요하지 않도록 시도;
- 새로운 정보 추출 llm 모델을 테스트하고 추출 전략을 미세 조정하기.
상황에 따라 추가될 수 있는 기능:
- RSS 정보 소스 지원 도입;
- 소셜 플랫폼 지원 도입(초기에는 매우 기본적인 것이 될 것이므로 너무 많은 기대를 하지 마십시오).
위의 내용은 dev 브랜치에 점진적으로 릴리스될 예정이며, 전환하여 시도해 보고, 적극적으로 이슈를 피드백해 주세요.
-----------------------------
🌱 수석 정보 책임자가 어떻게 당신의 시간을 절약하고, 관련 없는 정보를 필터링하며, 주목할 만한 요점을 정리하는지 살펴보세요! 🌱
@ -16,15 +36,19 @@ https://github.com/TeamWiseFlow/wiseflow/assets/96130569/bd4b2091-c02d-4457-9ec6
<img alt="sample.png" src="asset/sample.png" width="1024"/>
## 🔥 완전히 통합된 RAG 기능을 갖춘 wiseflow 다운스트림 애플리케이션 프로젝트 [awada](https://github.com/TeamWiseFlow/awada) 1.x 강력 추천
## ✋ wiseflow는 일반적인 크롤링 도구, AI 검색, 지식 베이스(RAG) 프로젝트와 어떻게 다른가요?
Awada는 위챗 생태계 내 팀 지식 보조 인텔리전트 에이전트입니다. 그룹 채팅, 공식 계정, 웹사이트 등의 소스에서 온라인으로 자율적으로 학습하고(수동 문서 업로드도 가능) 팀의 프라이빗 네트워크 지식 베이스를 구축하며, 팀 멤버에게 Q&A, 자료 검색 및 글쓰기(Word) 서비스를 제공합니다.
여러분의 두터운 사랑에 감사드리며, wiseflow는 2024년 6월 말에 V0.3.0 버전을 출시한 이후로 오픈 소스 커뮤니티로부터 광범위한 관심을 받았으며, 많은 자체 미디어로부터의 적극적인 보도도 끌어들였습니다. 먼저 감사의 말씀을 전합니다!
귀하의 관심사가 정보 목록이 아니라 정보 기반의 다운스트림 애플리케이션이라면, awada는 좋은 선택입니다.
그러나 일부 팔로워들이 wiseflow의 기능 위치에 대해 오해를 가지고 있음을 알게 되었습니다. 오해를 피하기 위해, 우리는 다음과 같은 표를 만들어 wiseflow와 크롤링 도구, AI 검색, 지식 베이스(RAG) 프로젝트의 비교를 명확히 보여줍니다:
Awada는 wiseflow의 온라인 학습 기능과 [Qanything](https://github.com/netease-youdao/QAnything)의 RAG 기능을 통합하고 있습니다. **위챗 생태계 내 정보 수집(예: 공식 계정 기사)에 더 관심이 있다면, awada 프로젝트도 참조하십시오**.
| | **수석 정보 관리자 (Wiseflow)** |
|-------------|-----------------|
| **크롤링 도구** | wiseflow는 많은 우수한 오픈 소스 크롤링 도구를 통합하고 LLM 기반의 자동화된 정보 필터링, 선별, 분류 능력을 추가하여, 간단히 wiseflow = 크롤링 도구 + AI로 생각할 수 있습니다 |
| **AI 검색** | AI 검색의 주요 애플리케이션 시나리오는 **특정 문제에 대한 즉각적인 질문 응답**입니다. 예를 들어: "XX 회사의 창립자는 누구입니까" 또는 "xx 브랜드의 xx 제품은 어디서 구매할 수 있습니까"; wiseflow의 주요 애플리케이션 시나리오는 **특정 정보의 지속적인 수집**입니다. 예를 들어 XX 회사의 관련 정보 추적, XX 브랜드의 시장 행동 지속적인 추적... 이러한 시나리오에서 사용자는 주목 포인트(회사, 브랜드)만 제공할 수 있으며, 구체적인 검색 질문을 제기할 수 없으며, 일회성 검색이 아니라 지속적인 추적 또는 자동화된 관련 추적이 필요합니다. wiseflow를 지속적으로 AI 검색을 자동으로 수행하는 "스마트 에이전트", 즉 "AI 정보 관리자"로 간단히 이해할 수 있습니다 |
| **지식 베이스(RAG) 프로젝트** | 지식 베이스(RAG) 프로젝트는 일반적으로 기존 정보에 기반한 하류 작업이며, 일반적으로 개인 정보(기업 내 운영 매뉴얼, 제품 매뉴얼, 정부 부서의 문서 등)에 직면합니다; wiseflow는 현재 하류 작업을 통합하지 않으며, 인터넷상의 공개 정보에 직면합니다 |
## V0.3.1 업데이트
## 🔄 V0.3.1 업데이트
대시보드 부분이 삭제되었습니다. 대시보드가 필요하다면, [V0.2.1 버전](https://github.com/TeamWiseFlow/wiseflow/releases/tag/V0.2.1)을 다운로드하십시오.
@ -35,25 +59,10 @@ Awada는 wiseflow의 온라인 학습 기능과 [Qanything](https://github.com/n
👏 또한, 이전 버전의 프롬프트 언어 선택 문제(출력 결과에는 영향을 주지 않음)에 대응하여, 현재 버전에서는 솔루션을 더욱 간소화했습니다. 사용자는 더 이상 시스템 언어를 지정할 필요가 없으며(Docker에서는 그다지 직관적이지 않습니다), 시스템은 태그와 그 설명을 기반으로 프롬프트 언어(즉, 정보의 출력 언어)를 판단하여 wiseflow의 배포 및 사용을 더욱 간소화합니다. **하지만 현재 wiseflow는 간체 중국어와 영어만 지원하며, 다른 언어의 요구 사항은 core/insights/get_info.py의 프롬프트를 변경하여 구현할 수 있습니다**
🌹 또한, 이번 업데이트에서는 지난 2개월 동안의 PR을 병합하고, 다음과 같은 새로운 기여자를 추가했습니다:
@wwz223 @madizm @GuanYixuan @xnp2020 @JimmyMa99
🌹 여러분의 기여에 감사드립니다!
## 🔄 wiseflow와 일반적인 크롤러 도구, LLM-Agent 프로젝트의 차이점과 연관성
| 특징 | 수석 정보 책임자 (Wiseflow) | 크롤러 / 스크래퍼 | LLM-Agent |
|----------------|--------------------------------------|-------------------|-----------|
| **주요 해결 문제** | 데이터 처리 (필터링, 정제, 라벨링) | 원시 데이터 획득 | 하류 애플리케이션 |
| **연관성** | | WiseFlow에 통합 가능, wiseflow에 더 강력한 원시 데이터 획득 능력을 부여 | WiseFlow를 동적 지식 기반으로 통합 가능 |
## 🌟 애플리케이션에 wiseflow를 통합하는 방법
wiseflow는 네이티브 LLM 애플리케이션으로, 7B~9B 크기의 LLM만으로도 정보 마이닝, 필터링, 분류 작업을 효과적으로 수행할 수 있으며, 벡터 모델이 필요하지 않습니다. 시스템 오버헤드가 매우 작기 때문에 다양한 하드웨어 환경에서의 로컬 및 프라이빗 배포에 적합합니다.
### ✋ 당신의 애플리케이션이 wiseflow가 마이닝한 데이터만 사용하는 경우, 즉 당신의 애플리케이션이 wiseflow의 다운스트림 작업인 경우
wiseflow는 마이닝된 정보를 내장된 Pocketbase 데이터베이스에 저장하므로, 이 시나리오에서는 wiseflow 코드를 이해할 필요가 없으며, 데이터베이스에 대해 읽기 작업만 수행하면 됩니다!
PocketBase는 인기 있는 경량 데이터베이스로, 현재 Go/Javascript/Python 등의 언어 SDK가 있습니다.
@ -61,10 +70,6 @@ PocketBase는 인기 있는 경량 데이터베이스로, 현재 Go/Javascript/P
- Javascript : https://pocketbase.io/docs/js-overview/
- python : https://github.com/vaphes/pocketbase
### ✋ wiseflow를 실시간 정보 처리 도구로 사용하려는 경우, 즉 wiseflow를 당신의 애플리케이션의 다운스트림 작업으로 사용하려는 경우
우리의 예제 프로젝트를 참조하세요 — 온라인에서 자율 학습이 가능한 WeChat 기반 개인 AI 어시스턴트 (또는 업계 전문가) [awada](https://github.com/TeamWiseFlow/awada)
## 📥 설치 및 사용 방법
### 1. 저장소 복제

View File

@ -20,7 +20,7 @@ class Request(BaseModel):
app = FastAPI(
title="WiseFlow Union Backend",
description="From Wiseflow Team.",
version="0.3.0",
version="0.3.1",
openapi_url="/openapi.json"
)