Skip to content

输入一个网址就可以生成连环画剧场,一键发布剪映,欢迎品鉴!!!

Notifications You must be signed in to change notification settings

hulutech-web/comic

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

AI连环画剧

输入一个网址就可以生成连环画剧场,一键发布剪映,欢迎品鉴!!!
本项目使用https://www.a8z8.com/ 作为连环画图片源

功能特性

  • 连环画图片批量下载
  • 图片转PDF功能
  • 外部服务,AI智能提取PDF文字
  • 外部服务,indexTTS,一键转音频
  • capcut集成包,一键生成剪映草稿
  • 支持多种图片格式(JPG, PNG, GIF, BMP, WEBP, TIFF等)

使用方式

main.go中填写URL地址,该地址为漫画图片列表地址

安装依赖

go mod tidy

使用方法

1. 漫画下载功能

go run main.go
package main

import (
    "comic/pkg/imgtopdf"
)

func main() {
    // 创建转换器
	pdfConverter := imgtopdf.NewImageToPDFConverter("", "", "", 0)
    
    // 转换单张图片
	pdfConverter.ConvertSingleImage(actualFilePath, pdfSavePath)

	// OCR识别
	resp, err := ocrService.RecognizeFromPDFFile(pdfSavePath)
}

支持的图片格式

  • JPG/JPEG
  • PNG
  • GIF
  • BMP
  • WEBP
  • TIFF/TIF

包结构

  • pkg/imgtopdf: 图片转PDF功能包
  • pkg/ocr.go: OCR识别功能
  • pkg/capcut/: CapCut相关功能
  • main.go: 主程序入口

技术栈

Comic AI - 图片文字解析工具

本项目集成了 MinerU OCR 功能,用于从图片中提取文字内容。项目依赖:https://github.com/hulutech-web/mineru

功能特性

  • 使用 MinerU 进行高质量 OCR 识别
  • 支持多种图片格式(JPG, PNG, BMP 等)
  • 中文优化的文字识别
  • 与项目原有 OCR 服务集成
  • 提供 API 服务供外部调用

系统要求

  • Go 1.19+
  • Python 3.8+
  • pip
  • uv (Python 包管理器)

安装依赖

1. 安装 Python 依赖

# 安装 MinerU(已通过 install_mineru.sh 自动安装)
./install_mineru.sh

# 或者手动安装
pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple

2. 设置环境变量

export MINERU_MODEL_SOURCE=modelscope

3. 安装 Go 依赖

go mod tidy

使用方法

使用 Go 程序调用 MinerU OCR

# 基本用法
go run main.go 

API 接口说明

新的 MinerU OCR 服务提供与原服务相同的 API 接口:

  • POST /api/ocr/base64: 使用 Base64 进行 OCR 识别
  • POST /api/ocr/file: 使用文件上传进行 OCR 识别
  • GET /health: 服务健康检查
  • GET /: 服务信息

请求和响应格式与原服务完全兼容。

项目结构

.
├── pkg/
│   ├── tools.go          # MinerU OCR 服务封装
│   └── ocr.go           # 项目原有 OCR 服务
├── python/
│   ├── image_ocr_mineru.py  # 新 MinerU OCR API 服务(替换原服务)
│   └── requirements.txt # Python 依赖
├── install_mineru.sh    # MinerU 安装脚本
├── main.go             # 主程序入口
└── README.md

配置

MinerU 使用以下环境变量进行配置:

  • MINERU_MODEL_SOURCE: 设置为 modelscope 以使用阿里云模型源加速下载

技术说明

MinerU 集成

MinerU 是一个强大的文档解析工具,不仅能处理 PDF,还可以用于图片 OCR 识别。本项目通过以下方式集成:

  1. 将单张图片转换为 PDF 格式
  2. 使用 MinerU 的 PDF 解析管道进行 OCR 识别
  3. 提取识别结果并进行后处理

新服务特性

新的 MinerU OCR API 服务:

  • 提供与原服务相同的 API 接口
  • 使用 MinerU 引擎进行更高质量的 OCR 识别
  • 支持健康检查接口
  • 更好的错误处理和日志记录

依赖管理

Python 依赖包含在 python/requirements.txt 中:

  • mineru[core]: 核心 MinerU 库
  • PyMuPDF: PDF 处理
  • pillow: 图像处理
  • fastapi: API 框架
  • uvicorn: ASGI 服务器
  • 其他必要的库

注意事项

  1. 首次使用时,MinerU 会下载大量模型文件,可能需要一些时间
  2. 确保有足够的磁盘空间(模型文件可能超过 1GB)
  3. 网络连接稳定以确保模型文件正确下载
  4. 对于大型图片,处理时间可能较长
  5. 新服务使用端口 8081,原服务使用端口 8081

故障排除

如果遇到问题:

  1. 检查 MinerU 是否正确安装:python -c "import mineru"
  2. 确认环境变量设置:echo $MINERU_MODEL_SOURCE
  3. 检查网络连接和防火墙设置
  4. 查看详细的错误信息

性能优化

  • 对于批量处理,建议使用新的 MinerU OCR 服务
  • 对于高质量文档 OCR,推荐使用 MinerU
  • 根据具体需求选择合适的语言模型

About

输入一个网址就可以生成连环画剧场,一键发布剪映,欢迎品鉴!!!

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages