้ขๅๅคๆๅญฆๆฏๅบๆฏ็ๅคๆจกๆ็ฅ่ฏ่ชๅจๅ็ณป็ป
- ไฝ่ ๏ผLindsey
๐ ๅจ็บฟไฝ้ช๏ผhttps://shiny-glitter-e495.542058929.workers.dev/
๐ฆ GitHub๏ผhttps://github.com/IveGotMagicBean/literature-agent-V2
Literature Agent ๆฏไธไธชๅบไบๅคAgentๅไฝๆถๆ็ๆบ่ฝ็ง็ ๆ็ฎ้ ่ฏปๅฉๆ๏ผ้ขๅ็ ็ฉถไบบๅๅจ่ฎบๆ้ ่ฏปใๅพ่กจ็่งฃๅ็ฅ่ฏๆด็ไธญ็็ๅฎ็็น๏ผๆไพไป PDF ่งฃๆ โ ๅพ่กจๆบ่ฝ่ฏๅซ โ ๅญๅพ่ฏญไนๆๅ โ ่ทจๆจกๆ้ฎ็ญ โ ๆฅๅ/PPTไธ้ฎ็ๆ ็ๅฎๆด็ฅ่ฏ่ชๅจๅๅทฅไฝๆตใ
- ๅคๆจกๆๆทฑๅบฆ็่งฃ๏ผไธไป ๆๅๆๆฌ๏ผๆด็จ่ง่งๅคงๆจกๅ๏ผqwen-vl-max / LLaVA๏ผ็ๆญฃ"็ๆ"ๅพ่กจ๏ผๆฏๆๅญๅพ็บงๅซ็็ฒพ็ป่ฏญไนๅๆ
- ๅคAgentๆบ่ฝๅไฝ๏ผSmartAgent๏ผๆ ธๅฟ็่งฃ๏ผใSubfigureAgent๏ผๅญๅพไธๅฎถ๏ผใReportAgent๏ผๆฅๅ็ๆ๏ผใPPTAgent๏ผๆผ็คบๆ็จฟ๏ผ้่ฟๆๅพ่ทฏ็ฑๅจ่ชๅจ่ฐๅบฆ
- ๅคLLMๅ็ซฏๅผนๆงๅๆข๏ผๆฏๆ้ฟ้ไบDashScopeใOpenAIใAnthropicใOllama๏ผไบ็ซฏ้ซๆง่ฝไธๆฌๅฐ้็งไฟๆค่ช็ฑ้ๆฉ
- PDF่ชๅจ่งฃๆ๏ผไธไผ PDFๅ่ชๅจๆๅๅ จๆๆๆฌไธๅพ่กจ
- ๆบ่ฝๅพ็ๅน้ ๏ผๅบไบๆๆฌๅผ็จ๏ผ่้ๆๅ้กบๅบ๏ผๅน้ Figure็ผๅท๏ผ้ฟๅ ้กบๅบๆททไนฑ
- ๅฎๆถๅ้ฆ๏ผ่งฃๆ่ฟๅบฆๅฎๆถๆตๅผๆพ็คบ
- ็ๆญฃ"็ๅพ"๏ผ่ฐ็จ่ง่งๅคงๆจกๅ็ดๆฅๅๆๅพ็ๅ ๅฎน๏ผ่้ไป ไพ่ตๆๅญๆ่ฟฐ
- ๅญๅพๆบ่ฝๅๅฒ๏ผๅบไบ figure-separator CNN ๆจกๅ่ชๅจๆฃๆตๅคๅๅพ่พน็๏ผๆ้่งฆๅ๏ผ่็่ตๆบ
- ไผ้ ้็บง๏ผๆ ่ง่งๆจกๅๆถ่ชๅจๅๆข็บฏๆๆฌๆจกๅผ๏ผๆ CNNๆจกๅๆถไฝฟ็จOpenCVๅบ็กๆนๆณ
ๆฏๆ็ๆฅ่ฏขๆนๅผ๏ผ
"ๅๆFigure 1" โ ่ง่งๆจกๅ็ดๆฅๅๆไธปๅพ
"Figure 2aๅฑ็คบไบไปไน๏ผ" โ ่ชๅจๅๅฒๅนถ่ง่งๅๆๅญๅพa
"ๅพ3ๅญๅพc" โ ไธญๆ่ช็ถ่ฏญ่จๆฏๆ
"ๅๆๆๆๅพ่กจ" โ ๆน้ๅๆ
- ็ปๆๅ็ซ ่๏ผๆ่ฆใๆนๆณใ็ปๆใ็ป่ฎบ
- ่ชๅจๆๅ ฅๅนถๆ ๆณจๅพ่กจ
- ๆฏๆ PDF / Word / Markdown ๅคๆ ผๅผ่พๅบ
- ๆบ่ฝๆๅๅ ณ้ฎๅ ๅฎน๏ผ่ชๅจๆ็็ๆๅนป็ฏ็
- ่ชๅจๅตๅ ฅ็ธๅ ณๅพ่กจ๏ผ้ๅ็ปไผๆฑๆฅ
- ่พๅบๆๆญ๏ผๆตๅผ็ๆ่ฟ็จไธญๅฏ้ๆถ็นๅป็บข่ฒๅๆญขๆ้ฎไธญๆญ
- ไพง่พนๆ ็ฎก็๏ผๅพ่กจๆ + ไธ่ฝฝๆ ็ปไธ็ฎก็๏ผๅฏๆปๅจๆฅ็
- ๆทฑ่ฒ/ๆต ่ฒไธป้ข๏ผ่ช้ๅบ็ณป็ปๅๅฅฝ
- Markdownๆธฒๆ๏ผๆฏๆๆ ้ขใๅ่กจใไปฃ็ ็ญๅฏๆๆฌๆ ผๅผ
- ๆตๅผๅๅบ๏ผๅฎๆถๆพ็คบLLM็ๆ่ฟ็จ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ๅ็ซฏ (Web UI) โ
โ HTML5 + CSS3 + JavaScript (ES6+) โ
โ Server-Sent Events ๆตๅผๅๅบ ยท AbortController โ
โโโโโโโโโโโโโโโโโโโโฌโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ HTTP / SSE
โโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ๅ็ซฏ (FastAPI) โ
โ RESTful API ยท ๅผๆญฅๅค็ ยท ๆไปถ็ฎก็ โ
โโโโโโโโโโโโโโโโโโโโฌโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โโโโโโโโโโโโโโโผโโโโโโโโโโโโโโ
โ โ โ
โโโโโโผโโโโโโ โโโโโโผโโโโโโ โโโโโโผโโโโโโโ
โ Agentๅฑ โ โ Parserๅฑ โ โ Generator โ
โ Smart โ โ PDF่งฃๆ โ โ PPTๆจกๆฟ โ
โ Intent โ โ ๅพ่กจๆๅ โ โ ๆฅๅๆ ผๅผ โ
โ Subfig โ โ ๅญๅพๅๅฒ โ โโโโโโโโโโโโโ
โ Report โ โโโโโโโโโโโโโ
โ PPT โ
โโโโโโฌโโโโโโ
โ
โโโโโโผโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ LLM ็ปไธๆฅๅฃๅฑ โ
โ DashScope ยท OpenAI ยท Anthropic ยท Ollama โ
โ ๆๆฌๅฏน่ฏ ยท ๆตๅผ่พๅบ ยท ๅพๅๅๆ ยท ้่ฏๆบๅถ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
| ๆจกๅ | ๆๆฏ | ๅ่ฝ |
|---|---|---|
| PDF่งฃๆ | PyMuPDF (fitz) | ๆๆฌๆๅใๅพ็ๆๅใ้กต้ขๅๆ |
| ๅญๅพๅๅฒ | figure-separator + OpenCV | CNNๆฃๆต + ๅบ็กๆนๆณ้็บง |
| LLMๆฅๅฃ | OpenAI SDK (ๅ ผๅฎนๆจกๅผ) | ๅคProviderใๆตๅผใ้่ฏใ่ง่ง |
| ๆๅพ่ทฏ็ฑ | ๆญฃๅ + ๅ ณ้ฎ่ฏ | ่ชๅจ่ฏๅซๅนถๅๅๅฐๅฏนๅบAgent |
| ๆๆกฃ็ๆ | python-pptx / python-docx / reportlab | PPTใWordใPDFใMarkdown |
ๅ็ซฏ๏ผFastAPI ยท OpenAI SDK ยท PyMuPDF ยท OpenCV ยท Pillow ยท python-pptx ยท python-docx ยท reportlab
ๅ็ซฏ๏ผHTML5 ยท CSS3 ยท JavaScript (ES6+) ยท Font Awesome ยท SSE ยท AbortController
LLM๏ผDashScope (้ไนๅ้ฎ) ยท OpenAI ยท Anthropic ยท Ollama
- Python 3.10+
- 4GB+ RAM
- ้ฟ้ไบ DashScope API Key๏ผๆจ่๏ผๆๅ ถไป LLM ๆๅก
git clone https://github.com/IveGotMagicBean/literature-agent-V2.git
cd literature-agent-V2
bash scripts/install.sh่ๆฌไผ่ชๅจๅฎ่ฃ ไพ่ตใๆฃๆต LLM ้ ็ฝฎ๏ผๅนถ่ฏข้ฎๆฏๅฆ็ซๅณๅฏๅจใ
# 1. ๅ
้
git clone https://github.com/IveGotMagicBean/literature-agent-V2.git
cd literature-agent-V2
# 2. ๅฎ่ฃ
ไพ่ต
pip install -r requirements.txt
# 3. ้
็ฝฎ
cp config/config.toml.example config/config.toml
vim config/config.toml # ๅกซๅ
ฅ API Key
# 4. ๅๅปบ็ฎๅฝ
mkdir -p data/example uploads
# 5. ๅฏๅจ
python app.py
# ่ฎฟ้ฎ http://localhost:7860bash scripts/start_local.sh้ฟ้ไบ DashScope๏ผๆจ่๏ผไธญๆ่ฝๅๅผบ๏ผ๏ผ
[llm]
provider = "dashscope"
[llm.dashscope]
api_key = "sk-xxxxxxxxxxxxxxxx" # https://bailian.console.aliyun.com ่ทๅ
base_url = "https://dashscope.aliyuncs.com/compatible-mode/v1"
model = "qwen-plus"
vision_model = "qwen-vl-max" # ๅพ่กจ่ง่งๅๆๅฟ
้กปOpenAI๏ผ
[llm]
provider = "openai"
api_key = "sk-xxxxxxxxxxxxxxxx"
model = "gpt-4o"ๆฌๅฐ Ollama๏ผ
[llm]
provider = "ollama"
[llm.ollama]
base_url = "http://localhost:11434"
model = "qwen2.5:14b"
vision_model = "llava:7b"# ๆพไธ็ฏ PDF ่ฎบๆไฝไธบ้ฆ้กต็คบไพๆๆกฃ
cp ไฝ ็่ฎบๆ.pdf data/example/example.pdf
# ๆพๆผ็คบ่ง้ข๏ผ้ฆ้กตๆญๆพๆ้ฎ๏ผ
cp ไฝ ็่ง้ข.mp4 static/demo.mp4sbatch app.sh # ๅฏๅจไธป็จๅบ๏ผ็ซฏๅฃ 7860๏ผ
sbatch scripts/ngrok.sh # ngrok ๅ
็ฝ็ฉฟ้๏ผๅฏนๅคๆด้ฒ็ซฏๅฃ๏ผ
sbatch scripts/ollama.sh # Ollama ๆฌๅฐๆจกๅๆๅก๏ผไฝฟ็จๆฌๅฐๆจกๅๆถ๏ผliterature-agent/
โโโ app.py # ไธป็จๅบๅ
ฅๅฃ
โโโ app.sh # SLURM ๆไบค่ๆฌ
โโโ requirements.txt
โโโ config/
โ โโโ config.toml # ้
็ฝฎๆไปถ๏ผ้่ช่กๅๅปบ๏ผ
โ โโโ config.toml.example
โโโ src/
โ โโโ agents/ # Smart / Subfigure / Report / PPT Agent
โ โโโ api/ # FastAPI ่ทฏ็ฑ
โ โโโ core/ # LLM ๅทฅๅ / ๅบ็จ็ถๆ
โ โโโ parsers/ # PDF ่งฃๆ / ๅพ็ๆๅ / ๅญๅพๅๅฒ
โ โโโ generators/ # PPT ๆจกๆฟ
โ โโโ matching/ # ๆๆฌ-ๅพ็ๅน้
โโโ static/
โ โโโ index.html
โ โโโ js/app.js
โ โโโ css/style.css
โ โโโ demo.mp4 # ๆผ็คบ่ง้ข๏ผ่ช่กๆพๅ
ฅ๏ผ
โโโ data/
โ โโโ example/example.pdf # ็คบไพๆๆกฃ๏ผ่ช่กๆพๅ
ฅ๏ผ
โโโ uploads/ # ็จๆทไธไผ ๏ผ่ฟ่กๆถ็ๆ๏ผ
โโโ scripts/
โโโ install.sh # ไธ้ฎๅฎ่ฃ
โโโ start_local.sh # ๆฌๅฐๅผๅๅฏๅจ
โโโ ngrok.sh # ngrok ๅ
็ฝ็ฉฟ้
โโโ ollama.sh # Ollama ๆๅก
โโโ dev/ # ๅผๅ่ฐ่ฏๅทฅๅ
ท
MIT License
- GitHub๏ผhttps://github.com/IveGotMagicBean/literature-agent-V2
- ้ฎ็ฎฑ๏ผ542058929@qq.com
ๆ่ฐขไปฅไธๅผๆบ้กน็ฎ๏ผFastAPI ยท PyMuPDF ยท python-pptx ยท python-docx ยท Ollama ยท figure-separator
Literature Agent โ ่ฎฉๆ็ฎ้ ่ฏปๆดๆบ่ฝ๏ผ ๐โจ






