改进的表格支持:推出用于转换大表格的新算法

对大表格的支持

我们现在支持一种新的高级算法来解析大表格,该算法可以通过新的 enable_tables_fallback 字段启用,默认值为 false
以下是一些之前无法正常工作的表格示例,但现在可以正常处理。每个示例代表了一个完整的表格类别,新算法将生成相应的输出结果。
示例输入:
示例输入
MMD 输出:
MMD 输出
示例输入:
示例输入
MMD 输出:
MMD 输出
对于 Mathpix Snip 用户,新算法默认启用。查看以下视频,了解如何数字化大表格数据并将结果粘贴到电子表格中。效果非常好。

Asciimath 修复

我们修复了垂直数学的 asciimath 输出。垂直加法和乘法现在已简化并使用标准数学表示。
例如,以下 asciimath 输出:
Asciimath 输入
将变为:
2000-1999

PDF 处理改进

我们新增了一个参数 auto_number_sections,默认值为 truehttps://docs.mathpix.com/#process-a-pdf),如果您不希望输出中包含章节编号,可以将其设置为 false。请注意,此参数在初始解析 PDF 时被考虑,并适用于所有导出选项。

表格中数字的格式一致性改进

之前,整数作为文本包含在表格中,负数和小数作为内联数学包含在表格中。为了解决这种不一致性,我们现在将负数和小数作为普通文本包含在表格中。这意味着我们现在将返回:
\begin{tabular} { |l||c|c| } 
1 & - 0.142 & - 0.080 
\end{tabular}
而不是:
\begin{tabular} { |l||c|c| }
1 & \( - 0.142 \) & \( - 0.080 \) 
\end{tabular}
这会影响 asciimath 输出,因为我们不再将非整数数字的表格单元格作为 asciimath 方程返回。包含变量或方程的表格单元格将继续使用内联数学定界符表示,并继续作为 asciimath 方程元素捕获。

孤立数字的格式一致性改进

所有孤立数字现在总是被识别为 v3/latex、v3/text 和 v3/strokes 文本输出中的内联数学。之前,孤立数字的响应可能是 3\( 3.14 \)。现在,我们返回 \( 3 \) 而不是 3 以提高一致性。
由于 PDF 以文本为主,这一更改不适用于 v3/pdfs,当数字不出现在方程中时,我们偏向于以文本模式输出数字。

其他改进

我们还进行了以下改进:
  • 提高了 PDF 处理的鲁棒性
  • 加快了大型文档导出为 DOCX 的速度
  • 修复了少见的 502 和 504 响应问题