IA hace 2 h

PP-OCRv6 en Hugging Face: 50 idiomas de OCR desde 1.5M a 34.5M parámetros

PaddlePaddle ha lanzado PP-OCRv6, la sexta versión de su modelo universal de reconocimiento óptico de caracteres (OCR). Este nuevo sistema ofrece soporte para 50 idiomas y tres niveles de tamaño del modelo: tiny, small y medium.

El modelo PP-OCRv6 está diseñado para aplicaciones prácticas en el mundo real, como la detección y reconocimiento de texto en documentos, capturas de pantalla y escenas. Puede funcionar en dispositivos con limitaciones de recursos o en entornos empresariales exigentes.

“La arquitectura incluye RepLKFPN para mejorar la detección en condiciones desafiantes y EncoderWithLightSVTR para el reconocimiento, combinando modelado local con atención global”

El modelo medium alcanza una precisión del 86,2% en la detección de texto y un 83,2% en el reconocimiento. Esto representa mejoras significativas frente a su predecesor PP-OCRv5_server, con aumentos del 4,6 y 5,1 puntos porcentuales respectivamente.

PP-OCRv6 utiliza PPLCNetV4 como backbone para la detección y reconocimiento de texto. La arquitectura incluye RepLKFPN para mejorar la detección en condiciones desafiantes y EncoderWithLightSVTR para el reconocimiento, combinando modelado local con atención global.

Los modelos small y medium soportan 50 idiomas, incluyendo chino simplificado, chino tradicional, inglés, japonés y 46 lenguas de escritura latina. Esto reduce la necesidad de modelos separados para cada idioma en escenarios multilingües comunes.

Los desarrolladores pueden comenzar a utilizar PP-OCRv6 con PaddleOCR mediante el comando pip install paddleocr.

Etiquetas #pp-ocrv6 #huggingface #reconocimiento-texto

PP-OCRv6 en Hugging Face: 50 idiomas de OCR desde 1.5M a 34.5M parámetros

Más sobre IA

Hugging Face Hub a hardware de robots con Agentes de Strands y LeRobot

DiffusionGemma