Skip to content

全部内容都是扫描图片的PDF。输出内容中引用了12_1.png,但实际上并没有这张图片,只有12_0.png #60

@mo-han

Description

@mo-han

更新

似乎和所选用的模型有关。
输出12_1.png的,所用模型为qwen-vl-max。
另一个用gpt-4o的,输出都是12_0.png

也就是说,其实从一开始就没有对图片各个区域进行切割。
这好吗,这不好。

以下为更新前的内容


100多页的PDF,全部都是扫描图片。
实际上,每一页都只有_0.png
那么第12页有何不同呢,这页上面有两个框图。

我们先把讨论范围扩大,来看看到底怎么回事。

根据它的输出的.md来看,表格内容都识别出来了,最终输出并不是通过图片的方式。
虽然有些复杂表格的格式没能保留,但这不怪模型,毕竟md本身支持的表格很简单。
但是,很多示意图、流程图、框图,并没有转换成md代码,而是依靠图片输出。
这里提一下,其实md可以包含框图的,可以改改prompt,尝试让大模型识别、理解、然后输出。

说回来,总之目前,框图这些,只能靠引用原图。
而且是对应页面的、完整的图片,并不是框图位置的裁剪图片。
其他页面上,要么没有框图,但凡有框图的,也只有一个。
于是,也就只引用一个_0.png
唯独第12页,有两个框图。
看起来,它似乎是发现了这两个框图,并尝试将它们切割出来。
但显然,它没有成功,最终的输出目录下,这页的图片只有一张,也就是12_0.png

我没有看这个项目的代码,所以不清楚细节处的问题。
仅从上述现象来推测,在切割图片、输出图片、命名图片时,存在不合理之处。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions