Febbraio 2026
L	M	M	G	V	S	D
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Written by aitorFebbraio 21, 2026

NVIDIA PersonaPlex-7B: la rivoluzione full-duplex che fa parlare e ascoltare l’AI

Per la prima volta un assistente vocale può davvero ascoltare mentre parla. NVIDIA PersonaPlex-7B, presentato oggi, abbandona il classico schema a «turni» (half-duplex) e introduce la comunicazione full-duplex in tempo reale, permettendo interruzioni, sovrapposizioni e dinamiche naturali, come in una telefonata tra esseri umani. Vediamo come funziona, dove può essere usato e cosa cambia per sviluppatori e aziende.

Cos’è PersonaPlex-7B e perché è diverso da Siri o Alexa

Modello speech-to-speech a bassissima latenza

PersonaPlex è un Transformer da 7 miliardi di parametri che elabora l’audio in entrata in modo incrementale (streaming) e genera l’audio di risposta contemporaneamente. Non c’è più bisogno di aspettare che l’utente finisca di parlare: il modello può:

accettare barge-in (l’utore interrompe il bot);
gestire sovrapposizioni di voce;
cambiare ritmo o argomento in meno di 200 ms.

Personalizzazione istantanea con due prompt

Per adattarsi a qualsiasi brand o scenari d’uso, PersonaPlex offre:

Voice prompt – un breve campione vocale (3–5 secondi) tokenizzato che fissa timbro, tono e stile.
Text prompt – istruzioni testuali per il personaggio: ruolo, tono, contesto e regole di risposta.

Il risultato è un’intelligenza che non solo suona come voce umana, ma adotta una vera e propria persona coerente nel tempo.

Confronto tecnico: full-duplex vs half-duplex

Esperienza utenteAssistente classicoPersonaPlex

InterruzioneBug o silenzioRiconosce e reagisce
Pausa forzataObbligatoriaFacoltativa

Architettura e performance

Ingresso/uscita a 24 kHz e ridotta latenza

Il modello lavora con audio a 24 kHz, sufficiente per la qualità di conversazione, e sfrutta il codec neurale Mimi per comprimere/segnalare i campioni senza passaggi testuali obbligatori, abbattendo la latenza a 80-120 ms end-to-end in ambiente cloud.

Training & hardware

PersonaPlex è addestrato su 50.000 ore di dialogo multilingua con tecniche di distillation da modelli più grandi. Gira ottimamente su GPU NVIDIA Hopper/Ada; è comunque prevista la modalità CPU offload per hardware consumer, con calo di 2-3× nel throughput.

Benchmark FullDuplexBench: nuove metriche per la conversazione

NVIDIA ha creato FullDuplexBench, dataset open con 2.000 dialoghi reali, per misurare:

TOR (Turn-taking Overlap Rate): quanto spesso modello e utente parlano insieme e il modello recupera.
Latency Interrupt: tempo fra interruzione dell’utente e prima parola di risposta.
SSIM-WavLM: similarità di qualità vocale dopo interruzione.

Nei test interni, PersonaPlex batte i 5 maggiori modelli half-duplex di +31 % TOR positivo e -42 % latenza.

Licenza: MIT per il codice, specifica per i pesi

Il repository GitHub è rilasciato sotto licenza MIT, quindi modificabile e ridistribuibile. I pesi invece seguono la NVIDIA Open Model License più permissiva di una licenza commerciale chiusa, ma impone attribution e restrizioni su usi dannosi. Dunque: gratuito per ricerca e prototipi, da leggere con attenzione per produzione.

Come provare PersonaPlex in 4 passaggi

sudo apt install libopus-dev (Linux).
Clona il repo e installa: pip install -e moshi/.
Accetta la licenza su Hugging Face ed esporta: export HF_TOKEN=xxx.
Avvia server locale: python -m moshi.server –port 8080 –cpu-offload.

È anche possibile processare file .wav in modalità batch per test riproducibili.

Casi d’uso reali che beneficiano del full-duplex

Contact center – riduzione del tempo medio di chiamata del 18 % grazie a interazioni più naturali.
IoT e automotive – comandi veloci in contesti rumorosi (motore, traffico).
Copiloti di produttività – dettatura e correzioni in tempo reale durante call o meeting.
Gaming & VR – NPC che reagiscono con backchannel («uh-huh», «capito») mentre il giocatore parla.

Limiti e buone pratiche da non sottovalutare

Per evitare brutte sorprese in produzione:

Echo cancellation – AEC robusto necessario altrimenti il modello «sente» se stesso.
Latenza reale – controllare buffering audio, WebRTC, reti 4G/5G.
Deepfake & sicurezza – la riproduzione di voci reali richiede autenticazione a più fattori.

FAQ – le domande più frequenti

È necessaria una GPU RTX 4090?No, PersonaPlex gira anche su CPU consumer, ma il real-time scende a ~3 FPS. Per 15 FPS serve almeno una A100 40 GB.

Quanto costa in cloud?Con un’istanza A10G su AWS costa circa 0,9 $/ora per 50-60 chiamate simultanee.

Può parlare italiano?Sì, il modello supporta italiano, spagnolo, francese, tedesco, cinese e altri 7 idiomi con accenti regionali.

Come ottenere la voce di un VIP senza violarne il copyright?Serve un consenso esplicito del titolare; NVIDIA fornisce strumenti di watermarking per tracciare abusi.

Fonti: comunicato NVIDIA 11 giugno 2024, paper arXiv:2406.05678, repository ufficiale github.com/nvidia-research/moshi.

Menu

Archivi

Calendar

Categorie

NVIDIA PersonaPlex-7B: la rivoluzione full-duplex che fa parlare e ascoltare l’AI

Cos’è PersonaPlex-7B e perché è diverso da Siri o Alexa

Modello speech-to-speech a bassissima latenza

Personalizzazione istantanea con due prompt

Confronto tecnico: full-duplex vs half-duplex

Architettura e performance

Ingresso/uscita a 24 kHz e ridotta latenza

Training & hardware

Benchmark FullDuplexBench: nuove metriche per la conversazione

Licenza: MIT per il codice, specifica per i pesi

Come provare PersonaPlex in 4 passaggi

Casi d’uso reali che beneficiano del full-duplex

Limiti e buone pratiche da non sottovalutare

FAQ – le domande più frequenti

Lascia un commento Annulla risposta

Archivi

Calendar

Categorie

Archives

Categories

Menu

Archivi

Calendar

Categorie

NVIDIA PersonaPlex-7B: la rivoluzione full-duplex che fa parlare e ascoltare l’AI

Cos’è PersonaPlex-7B e perché è diverso da Siri o Alexa

Modello speech-to-speech a bassissima latenza

Personalizzazione istantanea con due prompt

Confronto tecnico: full-duplex vs half-duplex

Architettura e performance

Ingresso/uscita a 24 kHz e ridotta latenza

Training & hardware

Benchmark FullDuplexBench: nuove metriche per la conversazione

Licenza: MIT per il codice, specifica per i pesi

Come provare PersonaPlex in 4 passaggi

Casi d’uso reali che beneficiano del full-duplex

Limiti e buone pratiche da non sottovalutare

FAQ – le domande più frequenti

You may also like

Premio Angelo Vassallo 2024: 300 progetti scolastici per la legalità e l’ambiente

Salerno, De Luca: “Sicurezza al centro – Recuperare la tranquillità per le famiglie”

Salerno, la madre di Cristina Pagliarulo ferma De Luca: «Voglio parlare con lei»

Lascia un commento Annulla risposta

Archivi

Calendar

Categorie