Generative AI Infrastructure Engineer
Contratto a tempo indeterminato - Full-time
Descrizione del Lavoro
Cerchiamo una figura tecnica per supportare lo sviluppo e l'evoluzione dell'infrastruttura generativa dei prodotti Nexum. La persona lavorerà su inferenza locale e cloud, deployment di modelli open-weight, gestione runtime, caching, batching, containerizzazione, osservabilità e ottimizzazione delle performance. Stack tecnologico: Python, Docker, Kubernetes, vLLM, Ollama, llama.cpp, MLX, PostgreSQL, Redis, OpenTelemetry, Llama, Qwen, Mistral, Gemma, DeepSeek, Phi. Responsabilità principali: - Gestire e ottimizzare il deployment di modelli LLM in ambienti di produzione - Configurare runtime di inferenza (vLLM, Ollama, llama.cpp, MLX) - Implementare strategie di caching, batching e load balancing - Containerizzare e orchestrare i servizi AI con Docker e Kubernetes - Monitorare le performance con OpenTelemetry e strumenti di osservabilità - Ottimizzare l'utilizzo delle risorse GPU/CPU per l'inferenza Il presente annuncio è rivolto ad entrambi i sessi, nel rispetto delle leggi 903/77 e 125/91 sulla parità di trattamento lavorativo e contro le discriminazioni di genere. Siamo aperti a candidati di ogni età e nazionalità, conformemente ai decreti legislativi 215/03 e 216/03. Nexum incoraggia inoltre la candidatura di persone con disabilità, nel rispetto della normativa vigente.
Requisiti
Infrastruttura AI
Esperienza con vLLM, Ollama, llama.cpp, MLX e runtime di inferenza
Container & Orchestrazione
Docker, Kubernetes, containerizzazione e deployment di modelli
Osservabilità
OpenTelemetry, monitoring, logging e ottimizzazione delle performance
Database & Caching
PostgreSQL, Redis, strategie di caching e batching
Benefits
Crescita Professionale
Programma "Continuous Improvement" per l'empowerment tecnico e professionale
Infrastruttura Innovativa
Lavora sulla frontiera dell'inferenza AI e del deployment di modelli
Compenso Competitivo
Retribuzione in linea con gli standard più aggiornati del settore IT
Lavoro Flessibile
Modalità ibrida o full-remote disponibile

