Perché questo ruolo è importante
Stiamo costruendo soluzioni di Intelligenza Artificiale all’avanguardia nel rispetto della Strategia Cloud Nazionale italiana. Non ti limiterai a “cliccare pulsanti” su AWS: progetterai piattaforme AI self-hosted e compliant, basate su infrastrutture sovrane. Questo ruolo è pensato per un ingegnere che sappia costruire affidabilità cloud-native senza dipendere dagli hyperscaler pubblici.
Descrizione del ruolo
Come DevOps Engineer per Sovereign AI, progetterai e manterrai l’infrastruttura che supporta i nostri workload AI/ML su cloud nazionali italiani (es. PSN, Aruba, TIM Enterprise). Il tuo focus sarà su Kubernetes self-managed, Data Sovereignty rigorosa e sull’implementazione di toolchain MLOps open-source, completamente indipendenti dai cloud pubblici statunitensi.
Responsabilità principali
1. Infrastruttura sovrana e orchestrazione
- Deploy e gestione di cluster Kubernetes di livello enterprise su cloud privati o provider nazionali (utilizzando Rancher, OpenShift o Kubespray).
- Gestione dei layer di virtualizzazione sottostanti (es. OpenStack o VMware vSphere) in caso di accesso bare-metal.
- Garanzia di alta disponibilità e disaster recovery all’interno delle specifiche zone/regioni del provider nazionale.
2. MLOps self-hosted
- Poiché non è possibile utilizzare servizi gestiti (come SageMaker o Vertex), progetterai e manterrai uno stack MLOps self-hosted con strumenti come Kubeflow, MLflow o Polyaxon.
- Configurazione e ottimizzazione di MinIO o Ceph per object storage S3-compatible, destinato alla gestione locale di grandi dataset di training.
- Gestione di container registry (Harbor) ospitati esclusivamente entro i confini italiani.
3. Compliance e sicurezza (GDPR / AGID)
- Applicazione rigorosa dei principi di Data Sovereignty, assicurando che nessun dato esca dall’Italia o dall’UE.
- Implementazione di standard di sicurezza conformi alle linee guida AGID (Agenzia per l’Italia Digitale) e ACN (Agenzia per la Cybersicurezza Nazionale).
- Gestione di policy di rete restrittive (Calico / Cilium) e di ambienti air-gapped o con accesso tramite proxy controllati.
4. Ottimizzazione GPU e hardware
- Configurazione di NVIDIA vGPU o PCI passthrough su istanze virtualizzate dei cloud nazionali.
- Ottimizzazione dello stack AI (driver CUDA, NVIDIA Container Toolkit) per massimizzare le performance su infrastrutture con risorse limitate.
- Esperienza con utilizzo serverless delle GPU.
Stack tecnologico e competenze
L’ambiente è cloud-native, ma basato prevalentemente su soluzioni open-source e self-hosted, equivalenti ai servizi dei cloud pubblici.
| Dominio | Tecnologie |
| Cloud | Cloud Nazionale Italiano (PSN, TIM, Aruba, Almaviva) |
| Orchestrazione | Red Hat OpenShift, SUSE Rancher, Kubernetes vanilla |
| Virtualizzazione | OpenStack, KVM, VMware |
| Storage | Ceph, Rook, GlusterFS, MinIO (S3 compatible) |
| AI/ML Platform | Kubeflow (fondamentale), MLflow, JupyterHub |
| CI/CD | GitLab CI (self-hosted), Jenkins, ArgoCD |
| Osservabilità | Prometheus, Grafana, Loki (stack PLG) |
Qualifiche
Requisiti obbligatori
- Almeno 3 anni di esperienza in System Engineering, DevOps o SRE.
- Padronanza di Kubernetes: devi saperlo installare, gestire e risolvere problemi senza un pulsante “Support” di Google o Amazon.
- Solida esperienza di amministrazione Linux (RHEL, Ubuntu, CentOS).
- Comprensione tecnica dei principi di Data Sovereignty e delle normative GDPR.
- Buona conoscenza di Python e Bash scripting.
Requisiti preferenziali
- Esperienza nella migrazione di workload da AWS/Azure a cloud privati o nazionali.
- Conoscenza dei principi GitOps (ArgoCD o Flux).
- Esperienza con clienti della Pubblica Amministrazione o settori altamente regolamentati (finanza, sanità).
- Ottima conoscenza della lingua italiana (spesso richiesta per la documentazione con i provider nazionali).
Cosa offriamo
- Retribuzione competitiva, in linea con il mercato italiano.
- Opportunità di lavorare su progetti ad alto impatto strategico nazionale.
- Welfare aziendale / buoni pasto / inquadramento CCNL Metalmeccanico o Commercio.
- Budget dedicato alla formazione e a certificazioni Kubernetes (CKA/CKS) e Red Hat.