ImgTextParser / README.md
nihuajian
Update README.md
e5691d8 verified

A newer version of the Gradio SDK is available: 5.45.0

Upgrade
metadata
title: ImgTextParser
emoji: 🐨
colorFrom: red
colorTo: green
sdk: gradio
sdk_version: 4.32.2
app_file: app.py
pinned: false
license: mit

MiniCPM 多模态内容解析工具

基于MiniCPM-o多模态模型的智能图片内容解析工具,支持表格、公式、文本三种解析模式。

功能特点

  • 🖼️ 支持多种图片格式(PNG、JPG、JPEG等)
  • 📊 表格解析: 智能识别表格结构并转换为标准Markdown格式
  • 🧮 公式解析: 识别数学公式并输出LaTeX格式
  • 📝 文本解析: 提取图片中的所有文字内容,保持原有格式
  • 🔧 自动清理多余输出,只保留纯净的解析结果
  • ⚡ 支持GPU加速推理
  • 🎛️ 用户友好的Web界面

使用方法

  1. 上传要解析的图片
  2. 选择解析类型(表格/公式/文本)
  3. 点击"开始解析"按钮
  4. 获取清洁的解析结果

技术栈

  • 模型: MiniCPM-o-2.6
  • 框架: Gradio + Transformers
  • 加速: CUDA GPU推理
  • 部署: Hugging Face Spaces

注意事项

  • 确保上传的图片清晰可见
  • 根据图片内容选择合适的解析类型
  • 复杂内容建议使用高分辨率图片