全部内容都是扫描图片的PDF。输出内容中引用了`12_1.png`，但实际上并没有这张图片，只有`12_0.png`

更新

似乎和所选用的模型有关。
输出`12_1.png`的，所用模型为qwen-vl-max。
另一个用gpt-4o的，输出都是`12_0.png`。

也就是说，其实从一开始就没有对图片各个区域进行切割。
这好吗，这不好。

以下为更新前的内容

---

100多页的PDF，全部都是扫描图片。
实际上，每一页都只有`_0.png`。
那么第12页有何不同呢，这页上面有两个框图。

我们先把讨论范围扩大，来看看到底怎么回事。

根据它的输出的.md来看，表格内容都识别出来了，最终输出并不是通过图片的方式。
虽然有些复杂表格的格式没能保留，但这不怪模型，毕竟md本身支持的表格很简单。
但是，很多示意图、流程图、框图，并没有转换成md代码，而是依靠图片输出。
这里提一下，其实md可以包含框图的，可以改改prompt，尝试让大模型识别、理解、然后输出。

说回来，总之目前，框图这些，只能靠引用原图。
而且是对应页面的、完整的图片，并不是框图位置的裁剪图片。
其他页面上，要么没有框图，但凡有框图的，也只有一个。
于是，也就只引用一个`_0.png`。
唯独第12页，有两个框图。
看起来，它似乎是发现了这两个框图，并尝试将它们切割出来。
但显然，它没有成功，最终的输出目录下，这页的图片只有一张，也就是`12_0.png`。

我没有看这个项目的代码，所以不清楚细节处的问题。
仅从上述现象来推测，在切割图片、输出图片、命名图片时，存在不合理之处。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

全部内容都是扫描图片的PDF。输出内容中引用了`12_1.png`，但实际上并没有这张图片，只有`12_0.png` #60

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

全部内容都是扫描图片的PDF。输出内容中引用了12_1.png，但实际上并没有这张图片，只有12_0.png #60

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions

全部内容都是扫描图片的PDF。输出内容中引用了`12_1.png`，但实际上并没有这张图片，只有`12_0.png` #60