Kvantifiointi
Mallin numeerisen tarkkuuden pienentäminen kustannusten ja nopeuden parantamiseksi.
Miksi tällä on merkitystä
Kvantifiointi tekee suurista malleista ajettavia pienemmällä laitteistolla.
Käytännössä
Ollaman llama3.2-malli käyttää kvantisointia mahtuakseen Hetzner-palvelimelle.
Liittyvät termit
Ollama
Työkalu paikallisten tekoälymallien ajamiseen. Ilmainen, yksityinen, nopea.
Lokaali malli
Omalla palvelimella ajettava tekoälymalli, joka ei lähetä dataa ulkoisille palvelimille.
Inferenssi
Prosessi jossa tekoälymalli tuottaa vastauksen syötetiedoista.
Tiedon tislaus
Suuremman mallin käyttäytymisen tiivistäminen pienempään malliin.