Quando si parla di intelligenza artificiale applicata alla grafica 3D, spesso si pensa a sistemi complessi che generano modelli a partire da mesh, voxel o nuvole di punti. Ma il nuovo framework PrimitiveAnything, lanciato da Tencent in collaborazione con l’Università Tsinghua, stravolge questo paradigma proponendo un metodo tanto innovativo quanto intuitivo: generare oggetti 3D come sequenze di componenti primitivi.Questo approccio si basa su un concetto semplice: anziché descrivere una forma 3D in modo continuo, come fanno i modelli classici, PrimitiveAnything scompone ogni oggetto in blocchi geometrici elementari (cubici, cilindrici, sferici…) che possono essere combinati tra loro secondo posizione, rotazione e scala. Un po’ come costruire un oggetto con i mattoncini LEGO.
Il vantaggio di questo approccio è duplice. Da un lato, consente una rappresentazione più interpretabile, vicina all’intuizione umana: possiamo capire visivamente come un oggetto è stato costruito. Dall’altro, permette una compressione molto più efficiente dei dati, con una riduzione dello spazio di oltre il 95% rispetto ai formati tradizionali.Inoltre, la struttura modulare e autoregressiva permette una grande flessibilità nella generazione:
Il tutto in un’architettura leggera, pensata per essere integrata in applicazioni come videogiochi, VR/AR e strumenti di modellazione interattiva.
L’architettura si basa su un trasformatore decoder autoregressivo, in grado di generare una sequenza variabile di componenti primitivi. Ogni componente viene descritto da:
Il decoder lavora in maniera sequenziale: ogni componente viene generato in base al contesto dei precedenti, con un modello a cascata che mantiene coerenza tra i blocchi. Il processo si ferma quando viene emesso un token di fine sequenza.Durante il training, vengono usate tecniche combinate:
Tutto ciò consente a PrimitiveAnything di apprendere sia l’aspetto strutturale che quello estetico degli oggetti, con una resa precisa e fedele.
Per valutare le performance del modello, Tencent e Tsinghua hanno creato un dataset chiamato HumanPrim, contenente oltre 120.000 oggetti annotati manualmente con componenti primitivi.Gli oggetti appartengono a categorie eterogenee e sono stati testati con metriche robuste:
Il risultato? PrimitiveAnything ha ottenuto ottime performance in termini di accuratezza della ricostruzione e coerenza con l’astrazione visiva umana.
Questo approccio porta benefici concreti in vari settori:
All’interno dello spazio ufficiale su Hugging Face, gli utenti possono:
Non è ancora possibile esportare direttamente il file 3D, ma il codice open source permette di integrare PrimitiveAnything in qualsiasi pipeline grafica con pochi passaggi.
PrimitiveAnything non è solo un esperimento di ricerca: è una dimostrazione concreta che la complessità delle forme può essere scomposta, compresa e gestita attraverso strutture modulari.Un approccio che guarda al futuro dell’interazione uomo-macchina, della modellazione 3D interattiva e dei contenuti generati dall’utente.Un domani potremmo costruire mondi virtuali con la stessa logica con cui componiamo una frase: pezzo dopo pezzo, significato dopo significato.
Demo ufficiale disponibile qui: https://huggingface.co/spaces/hyz317/PrimitiveAnything
✨ Vuoi scoprire come usare l'AI? Visita il canale YouTube AI Universo per demo e guide pratiche!