PDF AI Chat 🤖

基于 Next.js 14 和 LangChain 的智能 PDF 对话应用，支持 OCR 识别、向量搜索和 AI 问答

视频地址：https://www.bilibili.com/video/BV12KNNzHEpm/?spm_id_from=333.1387.homepage.video_card.click&vd_source=4d02eb2bf982719b42a36b66d95fc9af

✨ 核心特性

🚀 智能对话 - 基于 RAG 技术的精准 PDF 问答
📄 OCR 识别 - 支持扫描件和图片 PDF
⚡ 向量搜索 - Pinecone 向量数据库，搜索速度提升 10 倍
💾 持久化存储 - Redis + Pinecone 三层存储架构
🎨 现代 UI - Tailwind CSS + shadcn/ui 精美界面
🌐 Serverless - Vercel 一键部署，自动扩展

🎯 在线体验

访问地址: https://little-agent-pdf.vercel.app

📸 功能演示

上传 PDF 文件（最大 1MB）
自动 OCR 识别扫描件
智能文本分块和向量化
基于上下文的 AI 问答
多轮对话支持
Markdown 格式渲染

🛠️ 技术栈

类别	技术
前端	Next.js 14, React 18, TypeScript
UI	Tailwind CSS, shadcn/ui, Ant Design
AI	LangChain.js, Alibaba Tongyi Qwen
向量数据库	Pinecone (免费 100K 向量)
缓存	Upstash Redis
PDF 处理	pdf2json, tesseract.js (OCR)
部署	Vercel Serverless

快速开始

环境要求

Node.js 18+
npm 或 yarn

安装

npm install

配置

创建 .env.local 文件：

# AI 配置（必需）
ALIBABA_API_KEY=sk-your-alibaba-api-key-here

# Pinecone 向量数据库（推荐）
PINECONE_API_KEY=your-pinecone-api-key-here
PINECONE_INDEX_NAME=pdf-chat

# Upstash Redis（必需）
KV_REST_API_URL=https://your-redis-url.upstash.io
KV_REST_API_TOKEN=your-redis-token

获取 API Keys:

Alibaba Tongyi: https://dashscope.aliyun.com/
Pinecone: https://www.pinecone.io/ (免费版：100K 向量)
Upstash Redis: https://upstash.com/ (免费版：256MB)

详细设置指南: 查看 PINECONE_SETUP.md

运行

npm run dev

访问 http://localhost:3000

构建

npm run build
npm start

测试

# 单元测试
npm test

# E2E 测试
npm run test:e2e

项目结构

src/
├── app/              # Next.js App Router
│   ├── api/          # API Routes
│   │   ├── upload/   # PDF 上传
│   │   ├── parse/    # PDF 解析
│   │   └── chat/     # AI 对话
│   └── ...
├── components/       # React 组件
│   ├── chat/         # 对话组件
│   ├── layout/       # 布局组件
│   ├── pdf/          # PDF 组件
│   └── ui/           # UI 组件
├── lib/              # 工具库
│   ├── langchain/    # LangChain 配置
│   ├── pinecone/     # Pinecone 向量存储
│   ├── pdf/          # PDF 处理
│   ├── storage/      # Redis 存储
│   └── utils/        # 通用工具
├── types/            # TypeScript 类型
└── contexts/         # React Context

架构说明

存储架构

┌─────────────────────────────────────────────────────────┐
│  三层存储架构                                            │
└─────────────────────────────────────────────────────────┘

1. Pinecone (向量数据库)
   ├─ 向量嵌入 (embeddings)
   ├─ 持久化存储
   └─ 高性能相似度搜索

2. Redis (Upstash)
   ├─ PDF 元数据
   ├─ 文本内容
   └─ 文本 chunks

3. 内存缓存
   ├─ 单次请求快速访问
   └─ 请求结束后清空

数据流程

上传 PDF → 解析文本 → 分块 → 生成向量 → 存储到 Pinecone
                                    ↓
用户提问 → 向量化 → Pinecone 搜索 → 获取相关文档 → AI 生成回答

详细架构: 查看 docs/ARCHITECTURE_GUIDE.md import { Pinecone } from '@pinecone-database/pinecone'; const pinecone = new Pinecone({ apiKey: process.env.PINECONE_API_KEY }); const index = pinecone.index('pdf-chat');

// 3. 存储向量 await index.upsert([{ id: ${pdfId}-chunk-${i}, values: embedding, metadata: { pdfId, content: chunk.content } }]);

// 4. 搜索 const results = await index.query({ vector: queryEmbedding, topK: 4, filter: { pdfId: { $eq: pdfId } } }); 优点：

✅ 完全托管，无需维护 ✅ 免费版：1个索引，100K向量 ✅ 性能极好 ✅ LangChain 原生支持成本：

免费版：足够个人项目付费版：$70/月起方案 B: Supabase + pgvector (免费) ⭐⭐⭐⭐ // 1. 创建表 create table documents ( id bigserial primary key, pdf_id text, content text, embedding vector(1536) );

// 2. 创建索引 create index on documents using ivfflat (embedding vector_cosine_ops);

// 3. 存储 await supabase.from('documents').insert({ pdf_id: pdfId, content: chunk.content, embedding: embedding });

// 4. 搜索 const { data } = await supabase.rpc('match_documents', { query_embedding: queryEmbedding, match_threshold: 0.7, match_count: 4 }); 优点：

✅ 完全免费（500MB 数据库） ✅ 关系型数据库 + 向量搜索 ✅ 可以存储用户、PDF 元数据等 ✅ 实时订阅、认证等功能方案 C: Upstash Redis + 文本存储 (折中) ⭐⭐⭐ // 只存储文本chunks，不存储向量 // 每次搜索时重新计算（适合小规模）

// 1. 存储chunks await redis.set(chunks:${pdfId}, chunks);

// 2. 搜索时 const chunks = await redis.get(chunks:${pdfId}); const embeddings = await generateEmbeddings(chunks); // 重新计算 const vectorStore = await MemoryVectorStore.fromDocuments( chunks, embeddings ); 优点：

✅ 利用现有 Redis ✅ 避免每次重新解析 PDF ✅ 简单

License

MIT

📋 TODO List

🔐 用户认证功能

✅ 用户认证功能

用户注册（邮箱验证）用户登录（JWT Token）会话管理（多设备支持）密码重置 ✅ 权限和配额管理

用户角色（普通用户 vs 高级用户）文件上传限制 API 调用频率限制自定义配额设置 ✅ 用户个人中心个人资料编辑密码修改使用统计查看头像上传 ✅ 管理员后台功能

用户管理（查看、搜索、暂停、删除）配额管理（设置默认配额、自定义用户配额）

✅ 邮件通知注册验证邮件密码修改通知配额警告新设备登录通知

💾 IndexedDB 本地存储

🚀 推荐新增功能

📄 PDF 处理增强

💬 对话功能增强

🎨 UI/UX 优化

🔧 技术优化

🤝 协作功能

🌐 国际化

💰 商业化功能

🔒 安全增强

📊 数据分析

🎯 优先级建议

升级Agent路径阶段 1: 基础 Agent (1-2周) 集成 LangChain Agent 框架添加 3-5 个基础工具实现简单的决策循环添加工具调用日志阶段 2: 增强 Agent (2-3周) 实现 ReAct 模式添加任务规划能力支持多步骤任务添加错误重试机制阶段 3: 高级 Agent (3-4周) 多 Agent 协作自主学习和优化复杂任务分解人机协作界面

🤖 LangGraph ReAct Agent 智能体

什么是 ReAct Agent？

ReAct (Reasoning + Acting) 是一种结合推理和行动的 AI Agent 模式，能够：

自主思考：分析问题，制定计划
工具调用：根据需要调用外部工具
反思优化：根据结果调整策略
多步执行：完成复杂的多步骤任务

技术架构

// LangGraph 状态图
┌─────────────┐
│   开始      │
└──────┬──────┘
       │
       ▼
┌─────────────┐
│  推理节点   │ ← 分析问题，决定下一步
└──────┬──────┘
       │
       ▼
┌─────────────┐
│  工具节点   │ ← 调用工具（搜索、计算等）
└──────┬──────┘
       │
       ▼
┌─────────────┐
│  反思节点   │ ← 评估结果，是否继续
└──────┬──────┘
       │
       ▼
┌─────────────┐
│   结束      │
└─────────────┘

实现计划

阶段 1: 基础 Agent (1-2周) ⭐

阶段 2: 增强 Agent (2-3周) ⭐⭐

阶段 3: 高级 Agent (3-4周) ⭐⭐⭐

代码示例

// src/lib/agent/react-agent.ts
import { StateGraph, END } from "@langchain/langgraph";
import { ChatOpenAI } from "@langchain/openai";

// 定义状态
interface AgentState {
  messages: Message[];
  currentThought: string;
  toolCalls: ToolCall[];
  finalAnswer?: string;
}

// 推理节点
async function reasoningNode(state: AgentState) {
  const llm = new ChatOpenAI({ model: "gpt-4" });
  const thought = await llm.invoke([
    { role: "system", content: "你是一个智能助手，需要分析问题并决定下一步行动" },
    ...state.messages
  ]);
  
  return {
    ...state,
    currentThought: thought.content,
  };
}

// 工具节点
async function toolNode(state: AgentState) {
  const tools = {
    searchPDF: async (query: string) => {
      // 从向量库搜索
      return await searchSimilarDocuments(pdfId, query);
    },
    summarize: async (text: string) => {
      // 生成摘要
      return await generateSummary(text);
    }
  };
  
  // 执行工具调用
  const results = await executeTools(state.toolCalls, tools);
  
  return {
    ...state,
    messages: [...state.messages, ...results]
  };
}

// 构建状态图
const workflow = new StateGraph<AgentState>({
  channels: {
    messages: { value: (x, y) => x.concat(y) },
    currentThought: { value: (x, y) => y ?? x },
    toolCalls: { value: (x, y) => y ?? x },
    finalAnswer: { value: (x, y) => y ?? x }
  }
});

workflow.addNode("reasoning", reasoningNode);
workflow.addNode("tools", toolNode);
workflow.addNode("reflect", reflectNode);

workflow.addEdge("reasoning", "tools");
workflow.addEdge("tools", "reflect");
workflow.addConditionalEdges(
  "reflect",
  (state) => state.finalAnswer ? "end" : "reasoning"
);

workflow.setEntryPoint("reasoning");

const agent = workflow.compile();

使用场景

智能文档分析
- 用户：「帮我分析这份合同的风险点」
- Agent：
  1. 思考：需要提取合同条款
  2. 行动：调用 PDF 搜索工具
  3. 观察：找到 5 个关键条款
  4. 思考：需要分析法律风险
  5. 行动：调用风险分析工具
  6. 反思：已完成分析
  7. 输出：风险报告
多文档对比
- 用户：「对比这两份报告的差异」
- Agent：
  1. 分解任务：提取文档 A → 提取文档 B → 对比
  2. 并行执行：同时分析两份文档
  3. 汇总结果：生成对比报告
复杂问答
- 用户：「这份财报显示的利润率是多少？比去年增长了多少？」
- Agent：
  1. 提取当前利润率
  2. 搜索去年数据
  3. 计算增长率
  4. 生成回答

技术优势

特性	当前 RAG	ReAct Agent
问答能力	✅ 单次检索	✅ 多步推理
复杂任务	❌ 不支持	✅ 任务分解
工具调用	❌ 无	✅ 多工具协作
自主性	❌ 被动响应	✅ 主动规划
可解释性	⚠️ 黑盒	✅ 透明过程

参考资源

P0 (高优先级)

LangGraph ReAct Agent - 核心智能体升级 🔥
用户登录功能 - 多用户支持的基础
IndexedDB 存储 - 提升用户体验
对话历史管理 - 核心功能增强

P1 (中优先级)

Agent 可视化界面 - 展示思考过程
多文档格式支持 - 扩大使用场景
批量上传 - 提升效率
对话导出 - 数据可移植性

P2 (低优先级)

多 Agent 协作 - 高级功能
主题切换 - UI 美化
国际化 - 市场扩展
商业化功能 - 盈利模式

🤝 贡献

欢迎提交 Issue 和 Pull Request！

📧 联系

如有问题或建议，请提交 Issue。

Name		Name	Last commit message	Last commit date
Latest commit History 78 Commits
.claude		.claude
.kiro		.kiro
.vscode		.vscode
__tests__		__tests__
design-system/pdf-ai-chat		design-system/pdf-ai-chat
docs		docs
openspec		openspec
public/images		public/images
scripts		scripts
src		src
supabase		supabase
tests/unit/lib		tests/unit/lib
.env.example		.env.example
.eslintrc.json		.eslintrc.json
.gitignore		.gitignore
.npmrc		.npmrc
.prettierignore		.prettierignore
.prettierrc		.prettierrc
.vercel-env-import.sh		.vercel-env-import.sh
BREVO_SETUP.md		BREVO_SETUP.md
CHAT_REFACTOR.md		CHAT_REFACTOR.md
CLAUDE.md		CLAUDE.md
DESIGN_SYSTEM.md		DESIGN_SYSTEM.md
FILE_SIZE_LIMIT_UPDATE.md		FILE_SIZE_LIMIT_UPDATE.md
FIX_STEPS.md		FIX_STEPS.md
FRONTEND_INTEGRATION_COMPLETE.md		FRONTEND_INTEGRATION_COMPLETE.md
FRONTEND_INTEGRATION_GUIDE.md		FRONTEND_INTEGRATION_GUIDE.md
IMPLEMENTATION_CHECKLIST.md		IMPLEMENTATION_CHECKLIST.md
IMPLEMENTATION_PROGRESS.md		IMPLEMENTATION_PROGRESS.md
MAILERSEND_SETUP.md		MAILERSEND_SETUP.md
OCR_SETUP.md		OCR_SETUP.md
PARSE_API_FIX.md		PARSE_API_FIX.md
PDF_CONVERSATION_HISTORY_PLAN.md		PDF_CONVERSATION_HISTORY_PLAN.md
PDF_CONVERSATION_IMPLEMENTATION.md		PDF_CONVERSATION_IMPLEMENTATION.md
PDF_PARSE_FIX.md		PDF_PARSE_FIX.md
PDF_SCAN_ISSUE.md		PDF_SCAN_ISSUE.md
PHASE_1_2_COMPLETION_SUMMARY.md		PHASE_1_2_COMPLETION_SUMMARY.md
PINECONE_COMPLETE.md		PINECONE_COMPLETE.md
PINECONE_MIGRATION.md		PINECONE_MIGRATION.md
PINECONE_SETUP.md		PINECONE_SETUP.md
QUICK_START_GUIDE.md		QUICK_START_GUIDE.md
QUOTA_FIX_SUMMARY.md		QUOTA_FIX_SUMMARY.md
README.md		README.md
RESEND_SETUP.md		RESEND_SETUP.md
RESTART_GUIDE.md		RESTART_GUIDE.md
RESTART_OCR.md		RESTART_OCR.md
TESTING_GUIDE.md		TESTING_GUIDE.md
TEST_RESULTS.md		TEST_RESULTS.md
UPLOADER_UPGRADE.md		UPLOADER_UPGRADE.md
check-env.js		check-env.js
check-user-data.js		check-user-data.js
check-user-deps.js		check-user-deps.js
check-user-in-db.js		check-user-in-db.js
chi_sim.traineddata		chi_sim.traineddata
clean-all.sh		clean-all.sh
clear-cache.sh		clear-cache.sh
compare-env.js		compare-env.js
components.json		components.json
debug-users-guide.md		debug-users-guide.md
deep-clean.sh		deep-clean.sh
delete-user.sql		delete-user.sql
eng.traineddata		eng.traineddata
fix-chunk-error.sh		fix-chunk-error.sh
force-delete-clean.js		force-delete-clean.js
force-delete-user.js		force-delete-user.js
image.png		image.png
jest.config.js		jest.config.js
jest.setup.js		jest.setup.js
next.config.js		next.config.js
package-lock.json		package-lock.json
package.json		package.json
parse_ISSUE.MD		parse_ISSUE.MD
playwright.config.ts		playwright.config.ts
postcss.config.js		postcss.config.js
restart-dev.sh		restart-dev.sh
sql.md		sql.md
tailwind.config.ts		tailwind.config.ts
test-direct-api.js		test-direct-api.js
test-email-ipv4.js		test-email-ipv4.js
test-ocr.mjs		test-ocr.mjs
test-report.md		test-report.md
tsconfig.json		tsconfig.json
vercel.json		vercel.json
verify-db-user.js		verify-db-user.js
verify-keys.js		verify-keys.js
前端集成完成总结.md		前端集成完成总结.md
功能验证清单.md		功能验证清单.md
完整交互流程说明.md		完整交互流程说明.md
快速开始.md		快速开始.md
快速检查清单.md		快速检查清单.md
数据库迁移修复指南.md		数据库迁移修复指南.md
最终完成总结.md		最终完成总结.md
立即修复.md		立即修复.md

Folders and files

Latest commit

History

Repository files navigation

PDF AI Chat 🤖

✨ 核心特性

🎯 在线体验

📸 功能演示

🛠️ 技术栈

快速开始

环境要求

安装

配置

运行

构建

测试

项目结构

架构说明

存储架构

数据流程

License

📋 TODO List

🔐 用户认证功能

💾 IndexedDB 本地存储

🚀 推荐新增功能

📄 PDF 处理增强

💬 对话功能增强

🎨 UI/UX 优化

🔧 技术优化

🤝 协作功能

🌐 国际化

💰 商业化功能

🔒 安全增强

📊 数据分析

🎯 优先级建议

🤖 LangGraph ReAct Agent 智能体

什么是 ReAct Agent？

技术架构

实现计划

阶段 1: 基础 Agent (1-2周) ⭐

阶段 2: 增强 Agent (2-3周) ⭐⭐

阶段 3: 高级 Agent (3-4周) ⭐⭐⭐

代码示例

使用场景

技术优势

参考资源

P0 (高优先级)

P1 (中优先级)

P2 (低优先级)

🤝 贡献

📧 联系

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages