GUIDA ALLA TECNOLOGIA

Physical AI e Embodied AI: l’intelligenza che impara dalla materia e agisce nel mondo reale



Indirizzo copiato

Con la Physical AI l’intelligenza artificiale entra nel mondo fisico dotandosi di corpo e capacità di agire nel mondo reale. Attraverso l’integrazione di modelli Vision-Language-Action (VLA), World Models e gemelli digitali, la robotica supera i confini dell’automazione tradizionale per diventare un’entità capace di apprendere dall’esperienza sensoriale. In un mercato che corre verso la fabbrica software-defined e vede la leadership contesa tra i giganti statunitensi e la scala produttiva cinese, per le aziende manifatturiere l’adozione della Physical AI diventa un prerequisito per la sovranità tecnologica e la competitività.

Pubblicato il 21 mar 2026



Umanoiode_Shutterstock_2458570667

In sintesi

  • Physical AI è l’integrazione ingegneristica che permette all’AI di percepire, ragionare e agire autonomamente nel mondo fisico; Embodied AI è la ricerca sull’intelligenza incarnata che apprende tramite interazione sensoriale.
  • I modelli VLA, i World Foundation Model per la simulazione e il processo Sim2Real unificano percezione‑linguaggio‑azione; la Material Intelligence, l’E-skin e l’edge computing abilitano reattività e inferenza locale.
  • Impatto in fabbrica (linee software‑defined, cobot, AMR) e in sanità (la Surgical Data Factory e robotica assistita), ma emergono rischi di cybersecurity fisica, carenza di explainability, responsabilità legale e bisogno urgente di reskilling.
Riassunto generato con AI



Dal 2025 l’intelligenza artificiale ha smesso di essere confinata agli schermi. Modelli linguistici, chatbot, sistemi di analisi e raccomandazione continuano a proliferare, ma la frontiera competitiva si sta spostando verso macchine capaci di percepire l’ambiente fisico, ragionare in tempo reale e agire su di esso in modo autonomo e adattivo. È quello che si intende con Physical AI – un termine che il CEO di Nvidia Jensen Huang ha definito “il momento ChatGPT della robotica” al CES di gennaio 2025, indicando che questa tecnologia, a lungo confinata nei laboratori, sta per diventare infrastruttura produttiva mainstream.

Physical AI ed Embodied AI: due concetti distinti ma interconnessi

Prima di addentrarsi nelle applicazioni, è utile fare chiarezza sul lessico, perché i termini relativi a questo argomento circolano spesso in modo intercambiabile ma indicano in realtà cose diverse.

L’Embodied AI è la branca scientifica che studia l’intelligenza “incarnata”: sistemi che apprendono attraverso l’interazione diretta con il mondo fisico, sviluppando comprensione dei concetti spaziali – gravità, attrito, massa, resistenza – non per inferenza statistica dai dati, ma per esperienza sensoriale. Il corpo, per esempio un robot, diventa strumento di apprendimento per l’AI. È essenzialmente la risposta al cosiddetto Symbol Grounding Problem: per un’AI confinata in un server, “massa” è un parametro in un dataset; per un sistema embodied, è un vincolo cinetico che deve essere gestito in tempo reale.

La Physical AI è l’applicazione industriale e sistemica di questa visione. Non è solo apprendimento incorporato: è l’integrazione di intelligenza artificiale con scienza dei materiali, biomeccanica, controllo sensomotorio e architetture di calcolo distribuite. Se l’Embodied AI è il “software” dell’esperienza, la Physical AI è l’intero framework ingegneristico che rende possibile agire nel mondo fisico in modo sicuro, adattivo e scalabile.

Entrambe si contrappongono nettamente all’automazione tradizionale, basata sulla classica logica “if this, than that”. L’automazione programmata è ottima in contesti strutturati e ripetitivi; ma “cade” quando l’imprevisto entra in scena. La Physical AI è invece progettata per l’imprevisto: impara dai dati sensoriali, si adatta alle variazioni dell’ambiente, migliora nel tempo attraverso il feedback tra azione e risultato.

I sei principi della Physical AI

Per comprendere perché questa differenza è così profonda, è utile identificare i sei principi che strutturano la Physical AI come paradigma distinto.

Il primo è l’embodiment: l’intelligenza non esiste in astratto, ma è inscindibile dal corpo fisico che la ospita e dai vincoli materiali che quel corpo impone.

Il secondo è la percezione sensoriale multimodale, che non si limita alla vista ma integra tatto, suono, pressione e propriocezione – la consapevolezza della propria posizione nello spazio.

Il terzo è l’azione motoria: la capacità di produrre movimenti precisi, fluidi e contestualmente appropriati in risposta a ciò che viene percepito.

Il quarto è l’apprendimento – e qui la Physical AI si distingue nettamente dal software tradizionale: non si tratta del semplice aggiustamento di parametri interni di un modello, ma di un cambiamento nell’accoppiamento strutturale tra l’agente e l’ambiente. Il sistema modifica il modo in cui interagisce con il mondo, non solo come lo rappresenta.

Il quinto principio è l’autonomia: la capacità di stabilire obiettivi, pianificare sequenze di azioni e portarle a termine senza supervisione continua.

Il sesto è la sensibilità al contesto: un sistema di Physical AI non esegue il compito in astratto, ma adatta il proprio comportamento alle condizioni specifiche dell’ambiente in cui opera – temperatura, illuminazione, irregolarità delle superfici, presenza di operatori umani nelle vicinanze.

Il motore tecnologico: VLA, simulazione e il passaggio dal virtuale al reale

Alla base dell’autonomia adattiva ci sono i modelli VLA – Vision-Language-Action. Diversamente dall’AI tradizionale, che elabora immagini, testi o comandi motori in pipeline separate, i modelli VLA unificano percezione, ragionamento linguistico e controllo motorio in un’unica architettura. Questo significa che un robot può ricevere un’istruzione in linguaggio naturale – “prendi il componente dal vassoio e posizionalo nel slot a destra” – e tradurla direttamente in movimenti fisici precisi, senza passaggi intermedi di programmazione esplicita.

Il meccanismo sottostante è la tokenizzazione unificata: immagini, testo e stati motori vengono convertiti in sequenze di “token” omogenei, elaborati all’interno di un unico framework trasformatore. È la stessa logica con cui i grandi modelli linguistici trattano le parole – ma estesa a includere la geometria visiva e le traiettorie fisiche. Questo consente al modello di ragionare simultaneamente su cosa vede, cosa gli viene chiesto e come deve muovere gli attuatori, senza dover passare il controllo tra moduli separati con le perdite di informazione che ne conseguono.

Un pilastro altrettanto importante sono i World Foundation Model. Strumenti come Nvidia Cosmos non servono solo a costruire ambienti di simulazione più realistici: permettono al robot di “immaginare” il futuro prima di agire. Il sistema simula internamente le conseguenze fisiche di un’azione – come reagirà un oggetto alla presa, dove caderà se rilasciato, quanto sarà necessario correggere il percorso in presenza di attrito irregolare – e sceglie l’azione che massimizza la probabilità di successo. Non è più solo una semplice reazione agli stimoli: è pianificazione anticipatoria basata su un modello interno del mondo fisico.

Tra le architetture più avanzate si distingue il design a doppio sistema: un modulo “lento” per il ragionamento semantico e la pianificazione complessa, affiancato da un modulo “veloce” per il controllo motorio reattivo a bassa latenza. È una struttura che rispecchia in parte il funzionamento del sistema nervoso biologico, dove alcune reazioni motorie avvengono prima che il cervello elabori consapevolmente la situazione.

I sensi della Physical AI e l’intelligenza morfologica

La percezione di un sistema di Physical AI non si limita alla classica visione offerta dalle telecamere. I sistemi di Physical AI più avanzati integrano sensori aptici che trasmettono informazioni di pressione e texture, LiDAR per la mappatura tridimensionale dell’ambiente, b per l’analisi sonora e sensori di prossimità. Si parla di Active Perception: il robot non subisce passivamente i dati dell’ambiente, ma si muove deliberatamente per acquisire le informazioni che gli servono.

A questo livello entra in gioco un concetto emergente che ridisegna l’architettura stessa dei sistemi robotici: la Material Intelligence, o intelligenza morfologica. L’idea è che parte del “ragionamento” non avvenga nel processore centrale, ma nella materia stessa. La morbidezza di un giunto, l’elasticità di un polimero, la deformabilità di una superficie di contatto – tutti questi attributi fisici pre-elaborano le informazioni sensoriali prima ancora che raggiungano la NPU centrale, riducendo il carico computazionale e aumentando la reattività in situazioni critiche. Un arto morbido che si conforma alla forma di un oggetto esegue già una forma di adattamento senza richiedere alcun calcolo.

La tecnologia più avanzata in questo campo è la pelle elettronica neuromorfica, o E-skin: un rivestimento dotato di sensori distribuiti capace di percepire pressione, temperatura e persino segnali analoghi al dolore in modo localizzato. Anziché inviare tutti i dati al cervello centrale, l’E-skin elabora localmente i segnali di allerta e attiva riflessi di protezione immediati, mimando la resilienza biologica.

Il ruolo dell’edge computing e le piattaforme di simulazione

Tutta questa intelligenza deve elaborare i dati in tempo reale, senza dipendere dal cloud. La latenza di rete è incompatibile con decisioni che devono avvenire in millisecondi. È qui che entra l’edge computing: processori come l’Nvidia Jetson Thor e le NPU dedicati all’inferenza locale permettono di eseguire modelli complessi direttamente a bordo macchina.

Un capitolo a sé merita il processo Sim2Real – il trasferimento di comportamenti appresi in simulazione alla realtà fisica. Addestrare un robot nel mondo fisico è lento, costoso e potenzialmente pericoloso. Le piattaforme di simulazione avanzate come Nvidia Isaac Lab, alimentate da World Foundation Model come Cosmos, permettono di generare ambienti virtuali fisicamente accurati in cui i robot possono eseguire milioni di cicli di addestramento.

Il Reality Gap – la differenza tra ciò che il robot impara nel simulato e ciò che funziona nel reale – si riduce attraverso tecniche come l’Extreme Domain Randomization: variare sistematicamente texture, attriti e condizioni dell’ambiente virtuale fino a rendere il modello robusto alle variazioni del mondo reale.

Il Reinforcement Learning completa il quadro: invece di imparare da esempi umani (Supervised Fine-Tuning), il robot impara per tentativi, errori e ricompense. Ricerche recenti mostrano che i sistemi addestrati con RL raggiungono tassi di successo superiori al 97% su benchmark standardizzati di manipolazione, superando in generalizzazione i sistemi addestrati solo su dimostrazioni umane.

L’ecosistema dei player: piattaforme, hardware e giganti dell’automazione

La Physical AI non è un mercato verticale: è una filiera dove si incrociano fornitori di infrastruttura computazionale, produttori di hardware robotico e grandi player dell’automazione industriale, ciascuno con una strategia distinta. Vale la pena distinguere subito tra chi costruisce “cervelli” – modelli, piattaforme di training, software di ragionamento – e chi costruisce “corpi”, ovvero l’hardware fisico che quei modelli dovranno abitare.

Le menti della Physical AI (non solo Nvidia)

Sul fronte dei cervelli, tre attori meritano attenzione particolare. Physical Intelligence è una start-up che sta sviluppando modelli generalisti della serie π (pi), progettati per operare su diversi tipi di robot senza necessità di riaddestramenti specifici: l’obiettivo è un modello che si adatta all’hardware, non il contrario.

Hugging Face, nota per la democratizzazione dei modelli linguistici open source, ha portato la stessa logica alla robotica fisica con la libreria LeRobot e il modello SmolVLA: strumenti aperti che abbassano drasticamente la barriera d’ingresso per sviluppatori e ricercatori, accelerando la sperimentazione industriale fuori dai laboratori delle grandi aziende.

Sul fronte dell’infrastruttura a basso livello, NXP Semiconductors occupa una posizione strategica spesso sottovalutata: i suoi chip garantiscono il trasporto dati a bassa latenza tra sensori e attuatori, lo strato di comunicazione hardware senza il quale nessun ciclo Sense-Think-Act può funzionare in tempo reale.

Nvidia occupa una posizione di piattaforma: con Omniverse per la simulazione, Isaac per l’addestramento robotico, Cosmos come foundation model per il mondo fisico e Jetson come hardware per l’edge, Nvidia offre uno stack verticalmente integrato per chi vuole costruire sistemi di Physical AI senza partire da zero. All’inizio del 2026 l’azienda ha rilasciato nuovi modelli aperti GR00T per l’apprendimento e il ragionamento robotico, insieme al modulo Jetson T4000 basato sull’architettura Blackwell, che garantisce efficienza energetica quadruplicata rispetto alla generazione precedente.

Google ha recentemente portato la sua divisione robotica Intrinsic all’interno di Google Core – fuori da Alphabet “Other Bets” – per offrire ai produttori uno stack verticalmente integrato: modelli AI da DeepMind, software di deployment da Intrinsic, infrastruttura cloud da Google Cloud. Il modello RT-2 di DeepMind è stato tra i primi VLA a dimostrare la generalizzazione su task non visti in addestramento.

I “corpi” della Physical AI

Sul fronte dell’hardware umanoide, Tesla con Optimus, Figure AI con il modello Helix e Boston Dynamics con il suo Atlas nella nuova versione completamente elettrica sono le aziende che competono per il primo robot umanoide generalista a uso commerciale.

Boston Dynamics ha già avviato test operativi autonomi all’interno dello stabilimento Hyundai in Georgia. Figure AI ha annunciato BotQ, un impianto produttivo ad Austin con capacità iniziale di 12.000 unità annue, scalabile fino a 100.000.

Il fronte cinese è più aggressivo sul volume: con oltre 140 produttori domestici di robot umanoidi e più di 330 modelli già presentati, la Cina è senza dubbio il Paese che guida le installazioni globali di umanoidi. La startup Unitree vende robot a meno di 6.000 dollari sfruttando la filiera integrata del Delta del Fiume Yangtze, che domina anche il mercato dei riduttori armonici – i componenti meccanici critici per il movimento robotico – e il 70% della produzione mondiale di sensori LiDAR.

Gli attori del mondo dell’Automazione

I grandi dell’automazione industriale si muovono con logiche diverse. Siemens e Nvidia hanno formalizzato al CES 2026 un’espansione della loro partnership per costruire quello che definiscono un “Industrial AI Operating System”, con l’obiettivo di realizzare i primi stabilimenti produttivi completamente adattativi al mondo. Il primo sito pilota è la Siemens Electronics Factory di Erlangen, in Germania, con avvio previsto nel corso del 2026. Il cuore del sistema è un “AI Brain” che combina digital twin in tempo reale, automazione software-defined e infrastruttura Nvidia Omniverse per testare virtualmente ogni modifica prima di applicarla fisicamente. PepsiCo, che ha adottato in anteprima il Digital Twin Composer di Siemens, riporta un aumento del throughput del 20% e riduzioni del capex tra il 10 e il 15%, con il 90% dei problemi potenziali identificati prima della costruzione fisica.

ABB ha annunciato a marzo 2026 una partnership con Nvidia per portare Physical AI su scala industriale attraverso la sua piattaforma RobotStudio HyperReality, prevista per il secondo semestre del 2026.

Fanuc punta sull’AI-driven precision per la robotica industriale pesante, mentre start-up come Mind Robotics – spin-out di Rivian con 615 milioni di dollari di finanziamento totale raccolti a inizio 2026 – si concentrano su robot industriali capaci di destrezza fisico-cognitiva per task che l’automazione tradizionale non sa gestire.

Applicazioni in fabbrica: cosa cambia concretamente nella produzione

L’impatto più immediato della Physical AI sull’industria manifatturiera si articola lungo tre direttrici principali.

La prima è la fabbrica software-defined: linee di produzione che si riconfigurano in tempo reale in base agli ordini, senza fermi macchina per la riprogrammazione. BMW sta testando robot umanoidi nel suo stabilimento del South Carolina per operazioni che richiedono destrezza manuale – manipolazione di precisione, operazioni bimanuale, posizionamento di componenti in spazi confinati – dove la robotica industriale tradizionale non arriva.

La seconda direttrice è quella dei cobot di nuova generazione. I cobot attuali garantiscono la sicurezza fermandosi al contatto con l’operatore umano; i sistemi di Physical AI stanno sviluppando la capacità di prevedere i movimenti dell’operatore, anticiparli e adattare le proprie traiettorie in tempo reale. Non è solo sicurezza reattiva: è collaborazione proattiva. C’è però anche il rischio opposto: l’overtrust, ovvero la tendenza degli operatori a fidarsi ciecamente del sistema AI anche quando questo compie errori. La supervisione umana rimane indispensabile.

La terza è la logistica autonoma avanzata. Gli AMR – Autonomous Mobile Robots – di ultima generazione navigano magazzini dinamici senza percorsi predefiniti, rilevando ostacoli, coordinando flotte e ricalcolando i percorsi in tempo reale. La transizione dagli AGV tradizionali (Automated Guided Vehicles), che seguono binari fisici o magnetici, agli AMR che si orientano autonomamente nell’ambiente è già in corso. Secondo Citi Research, se i robot AI dovessero sostituire il 30% dei task manifatturieri nell’arco del prossimo decennio, il parco installato globale passerebbe dagli attuali 4 milioni di unità a circa 30 milioni, con un tasso di crescita annuo superiore al 20% – quasi tre volte il ritmo previsto dall’International Federation of Robotics.

Oltre la fabbrica: Physical AI in sala operatoria

Se il manifatturiero è il banco di prova principale della Physical AI, la sanità ne rappresenta l’applicazione più esigente – e probabilmente la più trasformativa. Le sale operatorie si stanno evolvendo in quella che i ricercatori definiscono Surgical Data Factory: ambienti in cui ogni gesto chirurgico è registrato, analizzato e reimmesso nel training dei modelli, creando un ciclo di miglioramento continuo che comprime i tempi di apprendimento tipici della formazione medica tradizionale.

CMR Surgical ha sviluppato il sistema Cosmos-H, una piattaforma di chirurgia robotica che integra modelli VLA per eseguire autonomamente compiti altamente ripetitivi – tensionamento dei tessuti, sutura, posizionamento degli strumenti – liberando il chirurgo per le decisioni che richiedono giudizio clinico. Medtronic sta costruendo la propria infrastruttura di Physical AI per la chirurgia su piattaforma IGX Thor di Nvidia, lo stesso hardware certificato per ambienti mission-critical che equipaggia i robot industriali di nuova generazione. La convergenza tecnologica tra sala operatoria e fabbrica non è una metafora: è letteralmente la stessa architettura hardware-software applicata a contesti diversi.

Le implicazioni per la gestione del rischio chirurgico sono significative. I sistemi attuali dimostrano una riduzione dell’errore umano nelle fasi di esecuzione standardizzata, mentre i chirurghi mantengono il controllo sulle decisioni adattive – quelle che richiedono lettura del contesto clinico, gestione delle complicanze impreviste, valutazione delle condizioni del paziente in tempo reale. La divisione del lavoro tra AI e chirurgo umano riproduce, in ambito medico, la stessa logica dei cobot di nuova generazione in fabbrica: non sostituzione, ma amplificazione delle capacità.

Le sfide aperte: sicurezza, dati e forza lavoro

Accanto alle opportunità, la Physical AI porta con sé sfide che non è possibile ignorare.

La prima è la responsabilità legale, che si intreccia con nuovi problemi di sicurezza specifici dei sistemi fisici adattativi. Uno è la cyber security fisica: i modelli VLA, essendo architetturalmente imparentati con i grandi modelli linguistici, ne possono ereditare le vulnerabilità. Tecniche di jailbreaking già note per i chatbot – sequenze di prompt progettate per aggirare i vincoli del modello – potrebbero essere adattate per indurre un robot a compiere azioni fisicamente pericolose: ignorare le zone di esclusione, modificare traiettorie in presenza di operatori, manomettere parametri di processo. È un vettore di attacco che gli standard ISO 10218 e ISO/TS 15066, pensati per la robotica tradizionale, non contemplano. Un altro problema è l’explainability: quando un sistema di Physical AI prende una decisione critica in autonomia – interrompere un processo, deviare una traiettoria, segnalare un’anomalia – deve essere in grado di fornire una giustificazione comprensibile per l’operatore umano. L’opacità delle reti neurali profonde, accettabile in molti contesti software, diventa un ostacolo alla fiducia e alla verifica in ambienti in cui le conseguenze degli errori sono fisiche e immediate. La domanda “chi risponde se un’AI fisica causa un danno?” non ha ancora una risposta giuridicamente definita in nessuna giurisdizione, e la mancanza di explainability la rende ancora più difficile da istruire.

La seconda sfida è la scarsità dei dati fisici. Se addestrare un LLM richiede testo – disponibile in quantità praticamente illimitata su internet – addestrare un sistema di Physical AI richiede dati di interazione fisica: sequenze di movimenti, feedback sensoriali, risultati di operazioni di manipolazione. Raccoglierli nel mondo reale è lento, costoso e difficilmente scalabile. La generazione di dati sintetici attraverso simulazione è la risposta principale a questo vincolo, ma il Reality Gap rimane un problema aperto.

La terza sfida riguarda la forza lavoro. La Physical AI non elimina il lavoro umano in fabbrica nell’immediato, ma ne ridefinisce radicalmente i contenuti. Il ruolo dell’operatore evolve verso la supervisione di sistemi intelligenti, il troubleshooting di comportamenti anomali, la validazione dei risultati dell’AI e la gestione delle eccezioni che il sistema non sa gestire. Questo richiede competenze nuove e un processo di reskilling che non può essere improvvisato. Le proiezioni di lungo periodo – UBS e Goldman Sachs stimano un mercato degli umanoidi tra 30 e 50 miliardi di dollari entro il 2035, con proiezioni ancora più ambiziose al 2050 – suggeriscono che l’impatto sul mercato del lavoro manifatturiero sarà strutturale, non episodico.

La Physical AI insomma si configura come cambiamento di paradigma produttivo che richiede scelte strategiche oggi – sulla formazione, sull’architettura degli impianti, sulle partnership tecnologiche e sulle modalità di collaborazione tra macchine e persone – per non ritrovarsi a gestire un divario competitivo già aperto domani.

Articoli correlati