MinerU

免费

MinerU一款全能、开源的文档与网页数据提取工具,可提取PDF图标和表格

开发者:Opendatalab

MinerU一款由OpenDataLab全新自研、专为多模态文档解析打造的智能数据提取工具,将彻底释放你的文档数据潜力,最大亮点是可以轻松可提取PDF图标和表格。

MinerU,作为一款全能、开源的文档与网页数据提取工具,致力于简化您的数据处理流程。它不仅能将混合了图片、表格、公式等在内的多模态PDF文档精准转化为清晰、易于分析的Markdown格式;还能从包含广告等各种干扰信息的网页中快速解析、抽取正式内容;

01快速识别与转换

MinerU中的Magic-PDF能够快速识别PDF版面元素,自动删除页眉、页脚、脚注等非正文内容,保留原文档的结构和格式,包括标题、段落、列表等,准确提取图片、表格和公式等多模态内容,并根据顺序,将文档转化为清晰、通顺、易读的Markdown格式。公式再多的文档也不用担心,在OpenDataLab自研的公式识别模型加持下,Magic-PDF也能轻松地将其转化为Latex格式,效果远超其他开源工具。另外乱码PDF、扫描版PDF等也能自动识别并转换……还有很多惊喜能力,等你发现。

02 Web网页信息轻松提取

常见的文章、论坛、音乐、视频等类型网页信息提取,MinerU中的Magic-Doc可以轻松剔出广告等干扰信息,快速搞定正文、评论、歌词、视频文字详情等关键内容转化。

03 多种格式电子书、文献批量搞定

MinerU中的Magic-Doc,还可以快速将8种以上格式转化为Markdown,做到文本图片全适配,支持电子书或文献的格式包括:epud、mobi、pptx、docx、chm、azw、txt、rtf等。

04 源码全开放,支持二次开发贯彻开源精神,助力高质量AI数据准备,集OpenDataLab自研成果于一体的 MinerU,源码完全开放,支持二次开发、“魔改”。(“炼丹”大神狂喜)

产品图库

视频课程