Articolo di Salahzar Stenvaag
Il modello Dbrx (databricks) ha una valutazione del 90% nei miei test, quindi è paragonabile a gpt4 (valutato al 95%), mentre altri come llama 3 sono ancora valutati “solo” all’85%, quindi paragonabili a chatgpt3.5. Poiché abbiamo un limite di token di 32K, si tratta di un concorrente LLM avanzato con solo 36B di esperti attivi su qualsiasi input che è quasi adatto per l’elaborazione locale.
Il sistema DBRX è un modello di intelligenza artificiale basato sull’architettura transformer, specificamente un modello generativo di solo decodifica addestrato attraverso la previsione del prossimo token. Si avvale di un’architettura di rete neurale detta “fine-grained mixture-of-experts” (MoE), caratterizzata da un totale di 132 miliardi di parametri, di cui 36 miliardi sono attivi per ogni input. Questo specifico modello è stato addestrato su 12 trilioni di token, combinando dati testuali e codice a livello di programmazione.DBRX presenta alcune differenze chiave rispetto ad altri modelli MoE aperti, come Mixtral-8x7B e Grok-1. A differenza dei concorrenti che usano 8 esperti e ne selezionano 2, DBRX utilizza ben 16 esperti, di cui ne sceglie 4 per ogni computazione. Questa scelta conduce a 65 volte più combinazioni possibili di esperti, migliorando significativamente la qualità del modello secondo le valutazioni dei suoi creatori.L’impiego di codifiche posizionali rotative (RoPE), unità lineari controllate (GLU) e attenzione per query raggruppate (GQA) contraddistingue l’innovatività di DBRX. Il modello utilizza inoltre il tokenizer di GPT-4, fornito nel repository tiktoken, selezionato in seguito a una serie di valutazioni e esperimenti di scala esaustivi.Riguardo alla preparazione dei dati di addestramento, DBRX è stato pre-allenato usando una nuova tipologia di dataset, sviluppato con gli strumenti completi forniti da Databricks. Questo include il lavoro con Apache Spark™ e i quaderni di lavoro di Databricks per l’elaborazione dei dati e Unity Catalog per la gestione e il governo dei dati. È stato stimato che la qualità dei dati raccolti per DBRX è superiore almeno del doppio rispetto a quella utilizzata per i modelli precedenti della famiglia MPT.
Durante il pre-addestramento, è stata applicata una tecnica chiamata apprendimento curriculare, modulando la miscela dei dati nel corso della formazione. Questa strategia è risultata in un significativo miglioramento della qualità del modello, confermando l’approccio innovativo adottato nello sviluppo di DBRX.