10月20日消息,百度10月16日開源的多語言文檔解析模型PaddleOCR-VL,連續(xù)三天霸榜Hugging Face趨勢榜第一。

PaddleOCR-VL能識別109種語言的文本、表格、公式和圖表等復(fù)雜元素,包括全球主要語言以及俄語、阿拉伯語和印地語等多種語言。在最新的用于評估現(xiàn)實(shí)場景中多樣化文檔解析性能的基準(zhǔn)測試工具OmniDocBench榜單中,PaddleOCR-VL以92.6綜合得分拿下全球第一,并且在OmniDocBench v1.5、OmniDocBench v1.0均是第一。
PaddleOCR-VL在OmniDocBench v1.5上實(shí)現(xiàn)了整體、文本、公式、表格和閱讀順序的SOTA性能,在所有關(guān)鍵指標(biāo)上均超越現(xiàn)有流水線工具、通用VLM和其他專用文檔解析模型。

論文中提到,PaddleOCR-VL在文檔解析任務(wù)中實(shí)現(xiàn)了最佳性能,其擅長識別復(fù)雜的文檔元素,例如文本、表格、公式和圖表,適用于手寫文本和歷史文檔等各種具有挑戰(zhàn)性的內(nèi)容類型。
百度給出的官方手寫文本示例中,圖片中文字寫作相對規(guī)范,有較少不清晰文字,模型識別結(jié)果中錯誤較少。

▲手寫文本(左)、識別結(jié)果(右)
隨后智東西上傳了一張?zhí)K軾手札,相對上面的圖片僅憑肉眼很難辨認(rèn)清楚且有較多繁體字,模型的識別結(jié)果中錯誤較多。

▲手寫文本(上)、識別結(jié)果(左下)、古詩文網(wǎng)原文(右下)
該方案的核心組件PaddleOCR-VL 0.9B基于NaViT風(fēng)格的視覺編碼器和ERNIE-4.5-0.3B語言模型構(gòu)建,具有快速推理和低資源消耗的特點(diǎn),適合實(shí)際部署。
在訓(xùn)練數(shù)據(jù)方面,研究人員采用了開源數(shù)據(jù)集、合成數(shù)據(jù)集、網(wǎng)絡(luò)可訪問數(shù)據(jù)集和內(nèi)部數(shù)據(jù)集。同時,其開發(fā)了高質(zhì)量訓(xùn)練數(shù)據(jù)構(gòu)建流程,通過公共數(shù)據(jù)采集和數(shù)據(jù)合成收集了超過3000萬個訓(xùn)練樣本,以基于專家模型的識別結(jié)果指導(dǎo)通用大型模型進(jìn)行自動標(biāo)注。