12 May
12May

Un nuovo approccio alla modellazione 3D basato su componenti primitivi

Quando si parla di intelligenza artificiale applicata alla grafica 3D, spesso si pensa a sistemi complessi che generano modelli a partire da mesh, voxel o nuvole di punti. Ma il nuovo framework PrimitiveAnything, lanciato da Tencent in collaborazione con l’Università Tsinghua, stravolge questo paradigma proponendo un metodo tanto innovativo quanto intuitivo: generare oggetti 3D come sequenze di componenti primitivi.Questo approccio si basa su un concetto semplice: anziché descrivere una forma 3D in modo continuo, come fanno i modelli classici, PrimitiveAnything scompone ogni oggetto in blocchi geometrici elementari (cubici, cilindrici, sferici…) che possono essere combinati tra loro secondo posizione, rotazione e scala. Un po’ come costruire un oggetto con i mattoncini LEGO.

Perché è importante: semplicità, efficienza e generalizzazione

Il vantaggio di questo approccio è duplice. Da un lato, consente una rappresentazione più interpretabile, vicina all’intuizione umana: possiamo capire visivamente come un oggetto è stato costruito. Dall’altro, permette una compressione molto più efficiente dei dati, con una riduzione dello spazio di oltre il 95% rispetto ai formati tradizionali.Inoltre, la struttura modulare e autoregressiva permette una grande flessibilità nella generazione:

  • L’oggetto può essere completato progressivamente
  • Si possono cambiare singoli blocchi in tempo reale
  • Si possono editare forme partendo da testo o immagini

Il tutto in un’architettura leggera, pensata per essere integrata in applicazioni come videogiochi, VR/AR e strumenti di modellazione interattiva.

PrimitiveAnything 3D AI

Come funziona il framework PrimitiveAnything

L’architettura si basa su un trasformatore decoder autoregressivo, in grado di generare una sequenza variabile di componenti primitivi. Ogni componente viene descritto da:

  • Tipo (es. cubo, sfera, cilindro…)
  • Posizione nello spazio
  • Rotazione
  • Scala

Il decoder lavora in maniera sequenziale: ogni componente viene generato in base al contesto dei precedenti, con un modello a cascata che mantiene coerenza tra i blocchi. Il processo si ferma quando viene emesso un token di fine sequenza.Durante il training, vengono usate tecniche combinate:

  • Cross entropy per la classificazione
  • Chamfer distance per la coerenza geometrica
  • Gumbel-Softmax per il sampling differenziabile

Tutto ciò consente a PrimitiveAnything di apprendere sia l’aspetto strutturale che quello estetico degli oggetti, con una resa precisa e fedele.

Il dataset HumanPrim: 120.000 oggetti annotati a mano

Per valutare le performance del modello, Tencent e Tsinghua hanno creato un dataset chiamato HumanPrim, contenente oltre 120.000 oggetti annotati manualmente con componenti primitivi.Gli oggetti appartengono a categorie eterogenee e sono stati testati con metriche robuste:

  • Chamfer Distance
  • Earth Mover’s Distance
  • Hausdorff Distance

Il risultato? PrimitiveAnything ha ottenuto ottime performance in termini di accuratezza della ricostruzione e coerenza con l’astrazione visiva umana.

Applicazioni: dal gaming all’editor 3D smart

Questo approccio porta benefici concreti in vari settori:

🎮 Game design e modding

  • Creazione rapida di oggetti 3D leggeri e coerenti
  • Editing di forme direttamente da descrizione testuale
  • Export ottimizzato per motori come Unity e Unreal

🛠️ Modellazione interattiva

  • Editing in tempo reale con logica a componenti
  • Tool di disegno 3D basato su input testuale o immagine
  • Costruzione per blocchi: personalizzabile, scalabile, compatibile

🤖 Robotica e AI vision

  • Migliore comprensione della forma per manipolazione robotica
  • Dataset generativi controllabili per training AI
  • Interpretazione semantica delle forme

🧠 Neuroscienze computazionali

  • Studio della percezione visiva umana
  • Test cognitivi su rappresentazione spaziale

Funzioni disponibili nella demo su Hugging Face

All’interno dello spazio ufficiale su Hugging Face, gli utenti possono:

  • Caricare un’immagine e vedere il risultato 3D generato a blocchi
  • Esplorare esempi predefiniti (es. sedie, oggetti, animali stilizzati)
  • Modificare alcuni parametri di generazione

Non è ancora possibile esportare direttamente il file 3D, ma il codice open source permette di integrare PrimitiveAnything in qualsiasi pipeline grafica con pochi passaggi.

Conclusioni: un modello che cambia il paradigma 3D

PrimitiveAnything non è solo un esperimento di ricerca: è una dimostrazione concreta che la complessità delle forme può essere scomposta, compresa e gestita attraverso strutture modulari.Un approccio che guarda al futuro dell’interazione uomo-macchina, della modellazione 3D interattiva e dei contenuti generati dall’utente.Un domani potremmo costruire mondi virtuali con la stessa logica con cui componiamo una frase: pezzo dopo pezzo, significato dopo significato.

Demo ufficiale disponibile qui: https://huggingface.co/spaces/hyz317/PrimitiveAnything


✨ Vuoi scoprire come usare l'AI? Visita il canale YouTube AI Universo per demo e guide pratiche!

Commenti
* L'indirizzo e-mail non verrà pubblicato sul sito Web.