MathpixOCR 新 API 端点 (测试版)

新的文本 API 端点

我们很高兴地宣布，我们的新 API 端点 v3/text 现已进入公开测试阶段。我们强烈建议搜索和排版应用程序切换到使用此新端点。经过几个月的测试和错误修复后，我们计划移除测试版标志。API 规范可在 https://docs.mathpix.com/#process-image-v3-text-beta 查看。

v3/text 的目标是提供一种更简单、更稳健的方式来提取图像中的所有数学和文本。它使用了不同的算法，能更好地读取大量文本。传统上，MathpixOCR 一直在处理超过一段文字的内容时遇到困难。现在，我们可以读取多达一整页的混合文本和数学内容（虽然我们还不支持双栏格式）。文本以简单文本形式呈现（而不是使用 \text），内联 LaTeX 被包含在内联分隔符中（默认 \( ... \)），块模式 LaTeX 被包含在块模式分隔符中（默认 \[ ... \]）。我们选择这些默认值是因为它们在现代 LaTeX 和 Markdown 编辑器中是标准的。

新功能

v3/text 会去除换行，除非它们在语义上很重要，而 v3/latex 会返回所有视觉上的换行。
v3/text 目前仅返回 text 和 latex_styled 输出选项；如果图像中有可读文本，则 text 总是会在响应 JSON 中设置。另一方面，当输入是文本密集的图像时，不会返回 latex_styled；在某些情况下，关于 latex_styled（数学模式）和 text（文本模式）哪种更适合给定图像存在歧义；在这种情况下，我们会返回两种选项。
多项选择题在 v3/text 中逐行表示。
text 和 latex_styled 包含数学模式中的换行，以便使生成的 LaTeX 代码更具可读性。

限制

目前在批量 API 中不可用。
仍在测试阶段，错误修复即将发布。

示例

纯文本

通过在平行板电容器的板间插入介质材料，能量增加了五倍。该材料的介电常数为

多项选择

渲染为：

圆的方程，触及

x = 0, y = 0

和

x = 4

为
(1)

4 (x^{2} + y^{2}) - 16 x - 16 y + 16 = 0

(2)

4 (x^{2} + y^{2}) - 12 x - 12 y + 12 = 0

(3)

4 (x^{2} + y^{2}) - 8 x - 8 y + 4 = 0

(4)

x^{2} + y^{2} - x - y - 1 = 0

段落和块模式数学

以下是 v3/text 在多个段落上的演示：

输入图像：

文本结果：

通过粒子模拟研究物理系统在多个领域中已经相当成熟，并且在其他领域变得越来越重要。最经典的例子可能是天体力学，但最近在等离子体物理、流体动力学和分子动力学中也进行了大量的研究和建模 [ 5] 有两类主要的模拟方法。动力学模拟跟踪

N

个粒子在某些时间间隔内的轨迹。给定初始位置

{x_{t}}

和速度，每个粒子的轨迹由牛顿第二定律决定：

m_{i} \frac{d^{2} x_{i}}{d t^{2}} = - \nabla_{i} Φ for i = 1, \dots, N

其中

m_{i}

是第

i

个粒子的质量，力是通过势函数

Φ

的梯度得到的。当对一组粒子的平衡配置感兴趣时，而不是它们的时间相关属性，可以使用 Monte Carlo 方法。在这种情况下，需要评估势函数

Φ

以尝试确定势能最小值。

数学公式中的换行以提高文本可读性

结论

有任何问题或意见？请联系我们！nico@mathpix.com