更新
似乎和所选用的模型有关。
输出12_1.png的,所用模型为qwen-vl-max。
另一个用gpt-4o的,输出都是12_0.png。
也就是说,其实从一开始就没有对图片各个区域进行切割。
这好吗,这不好。
以下为更新前的内容
100多页的PDF,全部都是扫描图片。
实际上,每一页都只有_0.png。
那么第12页有何不同呢,这页上面有两个框图。
我们先把讨论范围扩大,来看看到底怎么回事。
根据它的输出的.md来看,表格内容都识别出来了,最终输出并不是通过图片的方式。
虽然有些复杂表格的格式没能保留,但这不怪模型,毕竟md本身支持的表格很简单。
但是,很多示意图、流程图、框图,并没有转换成md代码,而是依靠图片输出。
这里提一下,其实md可以包含框图的,可以改改prompt,尝试让大模型识别、理解、然后输出。
说回来,总之目前,框图这些,只能靠引用原图。
而且是对应页面的、完整的图片,并不是框图位置的裁剪图片。
其他页面上,要么没有框图,但凡有框图的,也只有一个。
于是,也就只引用一个_0.png。
唯独第12页,有两个框图。
看起来,它似乎是发现了这两个框图,并尝试将它们切割出来。
但显然,它没有成功,最终的输出目录下,这页的图片只有一张,也就是12_0.png。
我没有看这个项目的代码,所以不清楚细节处的问题。
仅从上述现象来推测,在切割图片、输出图片、命名图片时,存在不合理之处。