Apple ha ufficialmente presentato FastVLM, un nuovo modello visivo-linguistico (VLM) progettato per portare le funzionalità AI multimodali direttamente su dispositivi mobili, a partire da iPhone, iPad e Mac con chip M2 o A18. La novità più importante? Una velocità di codifica 85 volte superiore rispetto agli standard precedenti, senza rinunciare alla precisione.Alla base di questa rivoluzione troviamo FastViTHD, un encoder visuale ibrido sviluppato da Apple per elaborare immagini ad alta risoluzione con efficienza record. Grazie a tecniche come compressione gerarchica dei token e ottimizzazione hardware nativa, FastVLM permette operazioni di AI visiva avanzata a 60 FPS direttamente sul dispositivo.
FastVLM è disponibile in tre versioni: 0.5B, 1.5B e 7B parametri, pensate per coprire esigenze diverse — dalla leggerezza per mobile alla potenza di calcolo per usi professionali. Il modello più piccolo (0.5B):
Nei benchmark multimodali, i risultati sono notevoli:
Il tutto con un tempo di risposta (TTFT) 7,9 volte più rapido rispetto ai modelli concorrenti. La combinazione di rapidità e accuratezza rende FastVLM uno dei modelli più promettenti del panorama mobile.
Il cuore dell’innovazione è l’ottimizzazione per l’ecosistema Apple. FastVLM è stato integrato con:
Questo significa che l’AI non gira solo nel cloud, ma direttamente sul dispositivo, anche in scenari complessi come:
La demo su iPhone mostra risultati come:
Apple ha rilasciato FastVLM come progetto open source sia su GitHub che su Hugging Face, usando come base il codice di LLaVA. Gli sviluppatori possono:
Questo rappresenta un cambio di passo nella strategia AI di Apple, sempre più focalizzata su:
Nei prossimi mesi, FastVLM potrebbe diventare il cuore di:
Un salto netto verso una AI realmente mobile, sicura e performante.
Link ufficiale GitHub: https://github.com/apple/ml-fastvlm/