PP-OCRv6 en Hugging Face: 50 idiomas de OCR desde 1.5M a 34.5M parámetros
PaddlePaddle ha lanzado PP-OCRv6, la sexta versión de su modelo universal de reconocimiento óptico de caracteres (OCR). Este nuevo sistema ofrece soporte para 50 idiomas y tres niveles de tamaño del modelo: tiny, small y medium.
El modelo PP-OCRv6 está diseñado para aplicaciones prácticas en el mundo real, como la detección y reconocimiento de texto en documentos, capturas de pantalla y escenas. Puede funcionar en dispositivos con limitaciones de recursos o en entornos empresariales exigentes.
“La arquitectura incluye RepLKFPN para mejorar la detección en condiciones desafiantes y EncoderWithLightSVTR para el reconocimiento, combinando modelado local con atención global”
El modelo medium alcanza una precisión del 86,2% en la detección de texto y un 83,2% en el reconocimiento. Esto representa mejoras significativas frente a su predecesor PP-OCRv5_server, con aumentos del 4,6 y 5,1 puntos porcentuales respectivamente.
PP-OCRv6 utiliza PPLCNetV4 como backbone para la detección y reconocimiento de texto. La arquitectura incluye RepLKFPN para mejorar la detección en condiciones desafiantes y EncoderWithLightSVTR para el reconocimiento, combinando modelado local con atención global.
Los modelos small y medium soportan 50 idiomas, incluyendo chino simplificado, chino tradicional, inglés, japonés y 46 lenguas de escritura latina. Esto reduce la necesidad de modelos separados para cada idioma en escenarios multilingües comunes.
Los desarrolladores pueden comenzar a utilizar PP-OCRv6 con PaddleOCR mediante el comando pip install paddleocr.