Marzo 2026
L	M	M	G	V	S	D
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Written by aitorMarzo 18, 2026

GLM-OCR: il nuovo OCR open-source da 0,9B parametri dominante nei benchmark

Punto di svolta nel mercato OCR: GLM-OCR arriva con 0,9 miliardi di parametri

Il mondo dell’intelligenza artificiale per la comprensione documentale ha appena registrato l’ingresso di un nuovo protagonista. Si chiama GLM-OCR, è un modello open-source pubblicato da Z.ai e promette di rivoluzionare il riconoscimento ottico dei caratteri (OCR) su documenti complessi pur mantenendo un “ingombro” computazionale ridotto: appena 0,9 miliardi di parametri, una cifra sensibilmente inferiore rispetto ai colossi che oggi dominano l’industria. La combinazione fra leggerezza e performance, secondo gli autori, rende GLM-OCR ideale sia per deploy su hardware locale sia per servizi cloud a basso costo.

Record sul benchmark OmniDocBench V1.5

Il risultato che sta facendo discutere è 94,62 punti raggiunti su OmniDocBench V1.5: con questo punteggio, GLM-OCR balza al primo posto in una classifica dedicata esplicitamente all’OCR avanzato e alla comprensione di documenti strutturati. Riconoscimento di formule, tabelle, sigilli e layout complessi sono le specialità del modello, che tuttavia – è bene chiarire – si misura su un benchmark verticalizzato, non su competenze generaliste dove GPT-4, Gemini o Claude mantengono vantaggi diversi.

Architettura leggera ma ad alte prestazioni

Encoder visivo CogViT e decoder linguistico GLM

Il paper tecnico depositato su arXiv rivela che GLM-OCR implementa un’architettura encoder-decoder compatta: un CogViT encoder visivo da 0,4B parametri accoppiato a un GLM decoder linguistico da 0,5B parametri. A questa struttura si aggiungono il meccanismo Multi-Token Prediction (MTP) e la pipeline two-stage:

PP-DocLayout-V3 analizza il layout del documento;
il riconoscimento avviene in parallelo su ogni regione individuata.

L’obiettivo dichiarato è massimizzare velocità, accuratezza e robustezza su pagine ad alta complessità grafica.

Casi d’uso focalizzati

GLM-OCR punta a diventare la soluzione di riferimento per l’enterprise quando si tratta di:

estrare dati da tabelle intricate;
interpretare formule matematiche e linguaggi di markup;
governare documenti con sigilli, timbri e codici;
generare output già pronti per flussi di automazione in JSON o Markdown.

Flessibilità di deployment: cloud, locale e Apple Silicon

Il progetto mette sul piatto un ventaglio di opzioni di deployment:

API MaaS tramite Zhipu Cloud per chi preferisce il modello as-a-service;
vLLM, SGLang, Ollama e MLX per chi vuole mantenere tutto in-house;
SDK Python e CLI ufficiale con modalità lite e full a seconda del contesto hardware.

L’intera codebase è rilasciata sotto licenza Apache 2.0; i pesi del modello, invece, sono distribuiti con licenza MIT, elemento che ne facilita l’adozione commerciale.

Requisiti hardware realistici: via libera a 8 GB, ma non a 1,5 GB

Attenzione ai meme social: la voce secondo cui GLM-OCR “gira con 1,5 GB di VRAM” non trova riscontro nella documentazione ufficiale. Le guide tecniche citano invece:

8 GB di memoria unificata per esecuzione su Apple Silicon via MLX;
8 GB di VRAM per fine-tuning con LoRA;
circa 24 GB per fine-tuning completo.

Resta comunque un modello lightweight rispetto ai colossi da decine o centinaia di miliardi di parametri.

Il significato più ampio: dal riconoscimento alla comprensione documentale

GLM-OCR riflette la tendenza dominante nell’OCR avanzato: spostare l’asticella dall’estrazione pura del testo alla comprensione semantica e strutturale del documento. Le aziende non cercano semplicemente una trascrizione, ma output immediatamente utilizzabili da ERP, CRM o sistemi di analisi dati.

L’integrazione nativa con Hugging Face Transformers riduce la friction per sviluppatori e ricercatori, mentre SDK e CLI ne facilitano l’inserimento in pipeline di automazione documentale. L’intero ecosistema attorno al progetto – inclusi esempi di codice, tutorial e script di fine-tuning – è pensato per accelerare l’adozione industrial-grade.

FAQ – Le domande più frequenti sul nuovo OCR open-source

Che cos’è GLM-OCR?

È un modello OCR multimodale da 0,9 miliardi di parametri, focalizzato su documenti complessi, sviluppato da Z.ai e rilasciato con licenze permissive (Apache 2.0 per il codice, MIT per i pesi).

Qual è il benchmark dominato da GLM-OCR?

Il modello ha ottenuto 94,62 punti su OmniDocBench V1.5, classificandosi al primo posto nel riconoscimento di layout, formule e tabelle.

Posso eseguirlo sul mio computer?

Sì: è supportato da vLLM, SGLang, Ollama e MLX; oppure puoi usare l’API cloud MaaS di Zhipu.

Servono davvero solo 1,5 GB di VRAM?

No. La documentazione parla di 8 GB per esecuzioni locali e fine-tuning leggeri, fino a 24 GB per il fine-tuning completo.

In sintesi, GLM-OCR dimostra che nel settore OCR il futuro non è necessariamente “bigger is better”, ma anzi “smarter and leaner”: meno parametri, costi ridotti, versatilità massima.

Menu

Archivi

Calendar

Categorie

GLM-OCR: il nuovo OCR open-source da 0,9B parametri dominante nei benchmark

Punto di svolta nel mercato OCR: GLM-OCR arriva con 0,9 miliardi di parametri

Record sul benchmark OmniDocBench V1.5

Architettura leggera ma ad alte prestazioni

Encoder visivo CogViT e decoder linguistico GLM

Casi d’uso focalizzati

Flessibilità di deployment: cloud, locale e Apple Silicon

Requisiti hardware realistici: via libera a 8 GB, ma non a 1,5 GB

Il significato più ampio: dal riconoscimento alla comprensione documentale

FAQ – Le domande più frequenti sul nuovo OCR open-source

Che cos’è GLM-OCR?

Qual è il benchmark dominato da GLM-OCR?

Posso eseguirlo sul mio computer?

Servono davvero solo 1,5 GB di VRAM?

Lascia un commento Annulla risposta

Archivi

Calendar

Categorie

Archives

Categories

Menu

Archivi

Calendar

Categorie

GLM-OCR: il nuovo OCR open-source da 0,9B parametri dominante nei benchmark

Punto di svolta nel mercato OCR: GLM-OCR arriva con 0,9 miliardi di parametri

Record sul benchmark OmniDocBench V1.5

Architettura leggera ma ad alte prestazioni

Encoder visivo CogViT e decoder linguistico GLM

Casi d’uso focalizzati

Flessibilità di deployment: cloud, locale e Apple Silicon

Requisiti hardware realistici: via libera a 8 GB, ma non a 1,5 GB

Il significato più ampio: dal riconoscimento alla comprensione documentale

FAQ – Le domande più frequenti sul nuovo OCR open-source

Che cos’è GLM-OCR?

Qual è il benchmark dominato da GLM-OCR?

Posso eseguirlo sul mio computer?

Servono davvero solo 1,5 GB di VRAM?

You may also like

Agropoli Cilento Servizi: firmato accordo stabilizzazione lavoratori, fine precariato dopo anni

Arresto a Nocera Inferiore: 24enne trovato con hashish e cocaina in casa

Maxi frode fiscale da 60 milioni a Salerno: 24 rinvii a giudizio nell’inchiesta “Blockchain”

Lascia un commento Annulla risposta

Archivi

Calendar

Categorie