文渊阁是一个专注于研发以中华文化为核心的开源大语言模型(LLMs)社区。
在人工智能飞速发展的今天,我们致力于通过大模型技术,深入挖掘、传承并弘扬博大精深的中华文化。文渊阁不仅是一个技术社区,更是连接传统文化与前沿科技的桥梁。
- 构建具有深厚文化底蕴的中文语料库与知识图谱。
- 研发高性能、可部署的中华文化垂直领域开源模型。
- 推动 AI 在文化传承、古籍修复与跨语言交流中的应用。
我们在 Hugging Face 提供了多个针对中华文化和历史的开源模型:
- Kongzi (孔子): 具有事实增强能力的开源历史大语言模型。蕴含着丰富的中国古代智慧 (An LLM full of ancient Chinese wisdom)。
- Zilu (子路): 专注于古汉语理解与生成的对话大语言模型 (A large model for answering in classical Chinese)。
为了促进中华文化大模型的发展,我们开源了以下高质量的训练与微调数据集:
- Kongzi-COT-SFT-1000k: 包含 100 万条数据的高质量思维链 (CoT) 指令微调数据集,用于提升模型的逻辑推理与事实准确性。
- chinese-q-t-a-data-r1-distill: 包含 5000+ 条数据的中文问答蒸馏数据集。
- Chinese_history_gen_data: 专注于中国历史文本生成与历史事实问答的数据集。
- GitHub 仓库: Yang-Jiashu/wenyuange
- Hugging Face 组织主页: Kongzi-LLM
- 项目主理人主页: https://yang-jiashu.github.io/