Ejecuta un servidor VLLM en HF Jobs con una sola orden
Hugging Face ha lanzado una nueva función que permite ejecutar un servidor de lenguaje grande (LLM) en su plataforma HF Jobs con solo un comando.
Para usar esta característica, los usuarios necesitan tener instalada la versión más reciente del huggingface_hub (1.20.0 o superior). Una vez configurado el entorno local y logueados, se puede iniciar el servidor usando el siguiente comando:
“Este comando crea un servidor privado compatible con OpenAI que puede ser consultado desde cualquier lugar, como una computadora portátil o un notebook”
``` hf jobs run --flavor a10g-large --expose 8000 \ vllm/vllm-openai:latest \ vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000 ```
Este comando crea un servidor privado compatible con OpenAI que puede ser consultado desde cualquier lugar, como una computadora portátil o un notebook.
Una vez en funcionamiento, el servidor está disponible a través de la URL proporcionada por Hugging Face. Los usuarios pueden interactuar con él usando comandos curl o mediante clientes de Python configurados para conectarse al endpoint expuesto.
El uso de este servicio se factura por segundo y los usuarios deben cancelar explícitamente las tareas una vez finalizadas para evitar costos adicionales.