I termini tecnici più importanti in relazione a ChatGPT

Il seguente elenco dalla A alla Z fornisce una panoramica chiara e di facile comprensione dei termini tecnici più importanti utilizzati in ChatGPT.


A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

A

ArchitetturaIn relazione a ChatGPT, l'architettura si riferisce alla struttura della rete neurale e al modo in cui i suoi vari componenti interagiscono.

Funzione di attivazione: funzione di una rete neurale che determina se e in quale misura un neurone viene attivato. In ChatGPT vengono utilizzate diverse funzioni di attivazione.

Meccanismo di attenzione: meccanismo dei modelli basati su trasformatori, come ChatGPT, che determina a quali parti di una sequenza di input il modello deve prestare maggiore attenzione.

Modelli autoregressivi: si tratta di modelli che fanno previsioni basate su risultati passati. GPT, l'architettura alla base di ChatGPT, è un modello autoregressivo.

Astrazione: capacità di ChatGPT di spiegare concetti e idee complesse con un linguaggio semplice e di facile comprensione.

Memorizzazione associativa: un concetto dell'IA in cui le informazioni vengono memorizzate in modo da poter essere recuperate in base a concetti o contesti correlati. Questo è un aspetto importante del funzionamento di ChatGPT.

Rilevamento delle anomalie: in alcuni casi d'uso, ChatGPT può essere utilizzato per rilevare modelli o variazioni insolite nei dati di testo.

B

Backpropagation: algoritmo utilizzato nell'apprendimento automatico per ottimizzare modelli come ChatGPT. Calcola il gradiente della funzione di perdita rispetto ai pesi del modello.

Batch: Un gruppo di dati di input che viene elaborato simultaneamente come parte del processo di formazione. L'uso dei batch consente un uso efficiente delle risorse hardware.

Ricerca a raggieraUna strategia di ricerca utilizzata nell'elaborazione del linguaggio naturale per trovare le migliori corrispondenze in un modello come ChatGPT. Seleziona i passi successivi più probabili in base alle stime attuali.

Bias: Nel contesto dell'apprendimento automatico e dell'IA, il bias si riferisce alla tendenza di un modello a commettere errori sistematici perché fa determinate ipotesi sui dati. Questi errori possono derivare dai dati di addestramento.

Retrotraduzione: tecnica di traduzione automatica in cui un testo viene tradotto in un'altra lingua e poi ritradotto nella lingua originale per verificare l'accuratezza della traduzione. Questa tecnica potrebbe essere utilizzata in alcuni casi d'uso con ChatGPT.

Bag of Words: modello o rappresentazione del testo in cui ogni parola di un documento viene considerata indipendentemente dalla sua posizione o dalle parole circostanti. Sebbene ChatGPT sia molto più avanzato dei modelli di bag-of-words, questo concetto è una parte fondamentale dell'elaborazione del testo e dell'apprendimento automatico.

Byte Pair Encoding (BPE): un algoritmo per la compressione e l'elaborazione dei dati testuali nell'apprendimento automatico. In ChatGPT, BPE viene utilizzato per tokenizzare il testo.

C

Reti neurali convoluzionali (CNN): un tipo di rete neurale tipicamente utilizzata per l'elaborazione delle immagini. Mentre ChatGPT si basa principalmente sui modelli Transformer, le CNN hanno un impatto anche sul campo dell'apprendimento automatico e dell'IA.

Classificatore: un tipo di modello di apprendimento automatico utilizzato per categorizzare o classificare l'input. ChatGPT può essere considerato un classificatore complesso che classifica gli input testuali in diverse categorie di output testuali.

Chatbot: programma in grado di condurre conversazioni simili a quelle umane. ChatGPT è un esempio di chatbot avanzato.

Il contestoIl contesto si riferisce alle informazioni circostanti o allo sfondo necessario per comprendere una particolare informazione. ChatGPT utilizza il contesto della conversazione precedente per generare risposte pertinenti e coerenti.

Corpus: una raccolta di testi utilizzata per addestrare modelli di apprendimento automatico come ChatGPT.

Entropia incrociata: misura della differenza tra la previsione di un modello e i dati reali. Nell'addestramento ChatGPT, l'entropia incrociata viene utilizzata come funzione di perdita per ottimizzare il modello.

Apprendimento continuo: un processo in cui un modello di apprendimento automatico apprende continuamente nuovi dati e migliora le sue previsioni nel tempo. Anche se ChatGPT non apprende in modo continuo (viene addestrato in "batch"), l'apprendimento continuo è una tendenza importante nell'apprendimento automatico.

D

Deep Learning: un sottocampo dell'apprendimento automatico che si concentra sull'uso di reti neurali artificiali con molti strati (da qui "profonde"). ChatGPT è un prodotto del Deep Learning.

Dataset: la raccolta di dati utilizzata per addestrare un modello di apprendimento automatico. Per ChatGPT, il dataset è costituito da grandi quantità di testo.

Decodifica: il processo di generazione di output basato sugli stati interni del modello. In ChatGPT, questo include la generazione di risposte testuali alle richieste degli utenti.

Dropout: tecnica per ridurre l'overfitting nelle reti neurali, ignorando i neuroni selezionati a caso durante l'addestramento.

Deterministico: sistema o processo che produce sempre lo stesso risultato quando viene eseguito con gli stessi dati di ingresso. Il ChatGPT è generalmente deterministico, anche se alcune funzioni come la temperatura e il campionamento top-k possono variare i suoi risultati.

Dimensionalità: in termini di apprendimento automatico, la dimensionalità si riferisce al numero di caratteristiche o variabili in un set di dati. In ChatGPT, ogni token ha un'alta dimensionalità perché è rappresentato da un vettore ad alta dimensionalità.

E

Encoder: parte dei modelli di apprendimento automatico che converte l'input in una rappresentazione interna. ChatGPT è un modello di sola decodifica, cioè utilizza un solo decodificatore, ma il concetto di codificatore è ampiamente utilizzato nell'IA e nell'apprendimento automatico.

Epoch: un'esecuzione completa dell'intero set di dati di addestramento durante l'addestramento di un modello di apprendimento automatico. Per modelli di grandi dimensioni come ChatGPT, ogni epoca può richiedere molto tempo.

Valutazione: il processo di misurazione delle prestazioni di un modello di apprendimento automatico. Per ChatGPT, ciò può includere la valutazione dell'accuratezza, della coerenza e della rilevanza dei testi generati.

Embeddings: rappresentazioni vettoriali dei dati utilizzate nei modelli di apprendimento automatico. In ChatGPT, le parole o i token vengono convertiti in vettori chiamati embeddings.

Entropia: concetto della teoria dell'informazione spesso utilizzato per quantificare l'imprevedibilità o il contenuto informativo dei dati. Quando si genera testo con ChatGPT, l'entropia può essere utilizzata per controllare la variabilità dell'output.

Ensemble: un metodo di apprendimento automatico in cui più modelli vengono combinati per ottenere previsioni migliori. Sebbene ChatGPT stesso non sia un ensemble, in alcune applicazioni più istanze di ChatGPT o di altri modelli possono essere utilizzate come ensemble.

F

Fine-tuning: il processo di adattamento di un modello pre-addestrato a un compito specifico attraverso un ulteriore addestramento su un set di dati più piccolo e specifico. ChatGPT è ottimizzato per apprendere specifiche abilità di dialogo.

Caratteristica: nell'IA e nell'apprendimento automatico, una caratteristica si riferisce a una singola proprietà o caratteristica misurabile di un fenomeno che viene osservato. In ChatGPT, le "caratteristiche" potrebbero essere le singole parole o frasi del testo.

Rete neurale feedforward: un tipo di rete neurale artificiale in cui le connessioni tra i nodi non sono cicliche. I modelli GPT, compreso ChatGPT, sono un tipo di rete feedforward.

Strato completamente connesso: uno strato di una rete neurale in cui ogni neurone è connesso a ogni neurone dello strato precedente. Questi strati sono spesso utilizzati nei modelli di intelligenza artificiale e di ML, tra cui ChatGPT.

Punteggio F1: una misura dell'accuratezza di un modello in compiti di recupero di informazioni e classificazione che tiene conto sia della precisione che del richiamo. Può essere utilizzato per valutare le prestazioni di ChatGPT in compiti specifici.

Fine-grained: una descrizione per modelli o compiti che richiedono un alto livello di dettaglio o specificità. Alcune applicazioni di ChatGPT potrebbero essere considerate "a grana fine".

Framework: un framework software è una piattaforma astratta che fornisce software che offre codice comune con funzionalità generiche. ChatGPT può essere implementato in diversi framework, come TensorFlow o PyTorch.

G

Modelli generativi: modello di apprendimento automatico in grado di generare nuovi dati che assomigliano ai dati di addestramento. ChatGPT è un esempio di modello generativo, in quanto è in grado di generare testi simili a quelli umani.

Discesa del gradiente: tecnica di ottimizzazione comunemente utilizzata per addestrare modelli di apprendimento automatico, tra cui ChatGPT. Minimizza in modo iterativo una funzione di perdita muovendosi nella direzione della discesa più ripida.

GPU (Graphics Processing Unit): Un tipo speciale di hardware per computer particolarmente adatto all'elaborazione in parallelo, ideale per l'addestramento di reti neurali di grandi dimensioni come ChatGPT.

GPT (Generative Pretrained Transformer): L'architettura specifica su cui si basa ChatGPT. GPT è un modello basato su un trasformatore che viene pre-addestrato su una grande quantità di dati testuali e poi utilizzato per generare testo.

Greedy Decoding: un metodo per generare testo da un modello come ChatGPT che seleziona sempre la parola o il token successivo più probabile.

Generalizzazione: la capacità di un modello di apprendimento automatico di funzionare bene su nuovi dati non visti in precedenza. Un modello ben generalizzato può applicare i concetti dei suoi dati di addestramento a nuovi dati.

Verità di base: l'informazione "vera" o il risultato corretto rispetto al quale possono essere confrontate le previsioni di un modello di apprendimento automatico. In ChatGPT, la verità di base è meno chiaramente definita perché non esiste una risposta univocamente corretta a molti input.

H

Euristica: un metodo pratico di risoluzione dei problemi che non è sempre ottimale, ma che in molti casi può portare a una soluzione rapida e valida. Quando si genera testo con ChatGPT, si possono usare metodi euristici per guidare il processo di generazione.

Iperparametri: Parametri di un modello di apprendimento automatico che vengono impostati prima dell'addestramento e ne influenzano il comportamento e le prestazioni. Esempi di iperparametri in ChatGPT possono essere il tasso di apprendimento, la dimensione del batch o il valore di abbandono.

Strati nascosti: strati di una rete neurale che si trovano tra gli strati di ingresso e di uscita. Eseguono l'elaborazione interna della rete. ChatGPT, come la maggior parte dei modelli di apprendimento profondo, ha molti strati nascosti.

Stato nascosto: Lo stato interno di una rete neurale basato sull'input corrente e sugli stati precedenti. In ChatGPT, lo stato nascosto determina quale parola viene generata successivamente.

Hugging Face: un'azienda che ha sviluppato una serie di librerie per l'apprendimento automatico e l'elaborazione del linguaggio naturale. La loro libreria Transformers contiene implementazioni di ChatGPT e di molti altri modelli.

Hardware: I componenti fisici di un sistema informatico. La formazione e l'esecuzione di ChatGPT richiedono un hardware speciale, in particolare le GPU (Graphics Processing Unit).

Human-in-the-loop: modello di interazione in cui un operatore umano è coinvolto nel processo di utilizzo di un sistema di intelligenza artificiale o di apprendimento automatico. In ChatGPT, ad esempio, un umano potrebbe agire come supervisore, controllando le risposte del modello e correggendole se necessario.

I

Inferenza: il processo di utilizzo di un modello addestrato per prevedere l'output sulla base di un nuovo input. In ChatGPT, questo è il processo di generazione delle risposte agli input dell'utente.

Iterazione: ripetizione di un processo. Nel contesto dell'apprendimento automatico, un'iterazione si riferisce spesso a un'esecuzione su un sottoinsieme (un "batch") di dati di addestramento.

Strato di ingresso: il primo strato di una rete neurale che riceve i dati di ingresso. Per ChatGPT, si tratta degli input di testo codificati.

Inizializzazione: il processo di impostazione dei valori iniziali dei pesi in una rete neurale prima dell'addestramento. Il metodo di inizializzazione può avere un impatto significativo sulle prestazioni del modello.

Information Retrieval: il campo dell'informatica che si occupa della ricerca e del recupero di informazioni in documenti o database. ChatGPT può essere utilizzato per compiti di information retrieval, comprendendo le richieste degli utenti e fornendo informazioni pertinenti.

Interpretabilità: la capacità di comprendere e spiegare le decisioni o le previsioni di un modello di IA. L'interpretabilità di modelli come ChatGPT è spesso una sfida perché si basano su reti neurali complesse.

Imputazione: il processo di sostituzione dei dati mancanti con valori stimati. Sebbene non sia direttamente applicabile a ChatGPT, è un concetto importante nell'elaborazione dei dati e nell'apprendimento automatico.

J

JSON (JavaScript Object Notation): Un formato di dati comune spesso utilizzato per scambiare dati tra server e applicazioni web. Quando si interagisce con ChatGPT tramite un'API, le richieste e le risposte possono essere strutturate in formato JSON.

Jupyter Notebook: Un'applicazione web open-source che consente la creazione e la condivisione di documenti contenenti codice live, equazioni, visualizzazioni e testo narrativo. I Jupyter Notebook sono uno strumento molto diffuso nella scienza dei dati e nello sviluppo dell'intelligenza artificiale e possono essere utilizzati per interagire con ChatGPT e condurre esperimenti.

Java: un linguaggio di programmazione orientato agli oggetti molto diffuso. Sebbene ChatGPT sia implementato in Python, potrebbe essere possibile richiamare il modello da un'applicazione Java, ad esempio tramite un'API.

Julia: un linguaggio di programmazione ad alte prestazioni per il calcolo tecnico. Julia sta diventando sempre più popolare nell'IA e nell'apprendimento automatico, anche se attualmente Python è ancora il linguaggio più utilizzato in questi campi.

K

AI (Intelligenza Artificiale): Il campo dell'informatica che si occupa della creazione di sistemi in grado di eseguire compiti che normalmente richiedono l'intelligenza umana. ChatGPT è un esempio di IA in quanto è in grado di generare testi simili a quelli umani.

Grafico della conoscenza: Una base di conoscenza utilizzata dai sistemi di intelligenza artificiale per comprendere le relazioni tra i diversi concetti. Sebbene ChatGPT non utilizzi direttamente un grafo della conoscenza, la sua comprensione del testo si basa sulle relazioni tra parole e concetti presenti nei dati su cui è stato addestrato.

Keras: libreria Python per l'apprendimento automatico e le reti neurali. Può servire come interfaccia per TensorFlow, una delle principali piattaforme per l'addestramento di modelli come ChatGPT.

Kernel: una caratteristica utilizzata in molte aree dell'apprendimento automatico, tra cui le macchine vettoriali di supporto e il Kernel Trick. In relazione a ChatGPT, il termine "kernel" è meno rilevante.

K-fold Cross Validation: un metodo per valutare le prestazioni dei modelli di apprendimento automatico dividendo i dati di addestramento in K parti uguali. Potrebbe essere utilizzato per valutare la robustezza di ChatGPT, ma è raro nella pratica a causa delle dimensioni e della complessità del modello.

L

Modello linguistico: Un modello che prevede la probabilità di sequenze di parole in una determinata lingua. ChatGPT è un modello linguistico che genera testo in base alle probabilità.

LSTM (Long Short-Term Memory): Un tipo di rete neurale ricorrente progettata specificamente per apprendere lunghe dipendenze nei dati di sequenza. Sebbene ChatGPT sia basato sull'architettura Transformer e non utilizzi le LSTM, queste ultime sono un concetto importante nell'elaborazione dei dati di sequenza.

Tasso di apprendimento: Un iperparametro che determina la frequenza di aggiornamento del modello di apprendimento automatico durante l'addestramento. Un tasso di apprendimento troppo alto può portare all'instabilità, mentre un tasso di apprendimento troppo basso può rallentare l'addestramento.

Funzione di perdita: Una funzione utilizzata durante l'addestramento di un modello di apprendimento automatico per misurare la differenza tra le previsioni del modello e i valori reali. ChatGPT minimizza una funzione di perdita per imparare meglio a generare testo simile a quello umano.

Spazio latente: concetto dell'apprendimento automatico in cui i dati ad alta densità vengono ridotti a una dimensione inferiore, creando una rappresentazione "nascosta" o "latente" dei dati. Sebbene ChatGPT non utilizzi esplicitamente lo spazio latente, crea rappresentazioni interne del testo che potrebbero essere considerate latenti in un certo senso.

Libreria: raccolta di funzioni e metodi a disposizione di un programmatore per facilitare lo sviluppo. ChatGPT può essere implementato utilizzando varie librerie, tra cui PyTorch, TensorFlow e la libreria Transformers di Hugging Face.

M

Apprendimento automatico: Un campo dell'intelligenza artificiale che consente agli algoritmi e ai modelli statistici di eseguire compiti senza essere esplicitamente programmati. ChatGPT è un prodotto dell'apprendimento automatico.

Modello: Un modello è una rappresentazione semplificata o un'astrazione di qualcosa di più complesso. Nel contesto di ChatGPT, il modello è un grande insieme di connessioni ponderate che utilizzano il modello per generare un output basato su un dato input.

Attenzione a più teste: un meccanismo dei modelli di trasformatori come ChatGPT che consente al modello di considerare simultaneamente diversi aspetti di un input.

Metadati: Dati che contengono informazioni su altri dati. Quando si lavora con ChatGPT, i metadati possono contenere informazioni sul tipo di input o sul contesto della conversazione.

Mascheramento: un processo in cui alcune parti dell'input vengono nascoste durante l'addestramento di un modello per evitare che il modello diventi dipendente da queste parti. Nel contesto di ChatGPT, questo aspetto è meno rilevante, poiché il modello è autoregressivo e fa previsioni solo sulla base delle parole generate fino a quel momento.

Microarchitettura: si riferisce agli elementi specifici di progettazione di un processore per computer. Quando si lavora con l'intelligenza artificiale e l'apprendimento automatico, come nel caso di ChatGPT, i requisiti di microarchitettura sono particolarmente elevati, poiché questi modelli richiedono spesso una notevole potenza di calcolo.

Apprendimento multi-task: un approccio all'apprendimento automatico in cui un modello viene addestrato su più compiti contemporaneamente, nella speranza che apprenda rappresentazioni più generali. Sebbene ChatGPT sia stato addestrato specificamente come modello linguistico, può essere utilizzato per una varietà di compiti, tra cui la generazione di testi, la comprensione di testi e persino la traduzione di testi.

N

Rete neurale: Un modello ispirato alla struttura del cervello umano, costituito da strati di nodi o "neuroni" interconnessi. ChatGPT si basa su un tipo di rete neurale noto come trasformatore.

Elaborazione del linguaggio naturale (NLP): Un campo dell'intelligenza artificiale che si occupa dell'interazione tra computer e linguaggio umano. ChatGPT è un modello NLP.

Non linearità: funzione utilizzata nelle reti neurali per aumentare la complessità del modello e catturare relazioni non lineari nei dati. Nel caso di ChatGPT, per introdurre la non linearità si utilizzano funzioni di attivazione come ReLU o Gelu.

Normalizzazione: processo di adattamento dei valori di un insieme di dati a una scala comune. Nel contesto delle reti neurali, come ChatGPT, la normalizzazione può essere applicata ai dati di ingresso o alle uscite dei neuroni.

N-gramma: Un insieme connesso di N parole in un testo. Mentre gli n-grammi sono spesso utilizzati nei modelli linguistici statistici più tradizionali, ChatGPT, in quanto modello neurale, non li utilizza esplicitamente.

Rumore: deviazioni non sistematiche o casuali in un insieme di dati. Nel contesto dell'apprendimento automatico, il "rumore" nei dati può influenzare l'addestramento di un modello come ChatGPT.

NVIDIA: un'azienda che produce molte delle GPU utilizzate per addestrare ed eseguire modelli come ChatGPT. NVIDIA ha anche sviluppato librerie software come CUDA e cuDNN che accelerano i calcoli sulle sue GPU.

O

Overfitting: fenomeno dell'apprendimento automatico in cui un modello apprende i dati di addestramento in modo troppo accurato e quindi si generalizza male a nuovi dati non visti in precedenza. Nello sviluppo di ChatGPT, sono state utilizzate tecniche come la regolarizzazione e il dropout per evitare l'overfitting.

Strato di uscita: lo strato finale di una rete neurale che fornisce le previsioni finali o gli output del modello. Nel caso di ChatGPT, si tratta del livello che genera le previsioni per la parola successiva nella sequenza di testo.

OpenAI: l'organizzazione che ha sviluppato ChatGPT. OpenAI è un'organizzazione di ricerca sull'intelligenza artificiale dedicata allo sviluppo di tecnologie AI sicure e utili e a rendere i loro benefici disponibili a tutti.

Ottimizzazione: Il processo di regolazione dei parametri di un modello per migliorarne le prestazioni. Nel contesto di ChatGPT, ciò avviene attraverso l'addestramento del modello, regolando i pesi per massimizzare l'accuratezza predittiva.

Funzione obiettivo: Una funzione che un modello di apprendimento automatico cerca di massimizzare o minimizzare. Nel caso di ChatGPT, si tratta della probabilità delle sequenze di testo generate, misurata rispetto ai dati di addestramento.

Codifica one-hot: un metodo per rappresentare variabili categoriche come vettori binari. Sebbene ChatGPT non utilizzi direttamente la codifica one-hot (utilizza invece un metodo chiamato tokenizzazione), si tratta di un concetto comune nell'elaborazione dei dati testuali.

Fuori vocabolario (OOV): Un termine che si riferisce alle parole che non sono incluse nel vocabolario di un modello linguistico. ChatGPT utilizza uno speciale metodo di tokenizzazione per attenuare questo problema, suddividendo le parole in unità più piccole (chiamate "token").

P

Pretraining: la prima fase dell'addestramento di modelli come ChatGPT, in cui il modello viene addestrato su un ampio corpus di testi per imparare la struttura e il modello del parlato umano. È la fase in cui il modello impara a generare un testo coerente.

Parametri: Variabili di un modello che vengono regolate durante il processo di addestramento. Nel caso di ChatGPT, i parametri sono i pesi delle reti neurali che compongono il modello.

PyTorch: libreria open source per l'apprendimento automatico comunemente utilizzata per sviluppare e addestrare modelli di intelligenza artificiale, tra cui ChatGPT.

Modellazione predittiva: il processo di utilizzo di algoritmi statistici e di apprendimento automatico per prevedere i risultati futuri. ChatGPT è un esempio di modello predittivo, in quanto fa previsioni su quali parole dovrebbero apparire successivamente in una sequenza di testo.

Distribuzione di probabilità: funzione matematica che rappresenta le probabilità dei diversi risultati possibili in un esperimento. In ChatGPT, l'output del modello corrisponde a una distribuzione di probabilità sulla parola successiva in una sequenza.

Perplessità: misura dell'incertezza di un modello di probabilità su una gamma di risultati. Nella modellazione linguistica, compresa ChatGPT, la perplessità è spesso utilizzata per valutare la qualità di un modello.

Padding: procedura utilizzata per portare le sequenze di input in una rete neurale a una lunghezza uniforme. In pratica, il padding viene spesso utilizzato in combinazione con l'elaborazione in batch, importante per l'addestramento di modelli come ChatGPT.

Q

Query: Nel contesto dell'architettura Transformer su cui si basa ChatGPT, una query è un vettore utilizzato per calcolare i pesi di attenzione. In ogni blocco Transformer, c'è una query, una chiave e un valore che, insieme, formano il meccanismo di attenzione a punti scalati.

Q-learning: un tipo di apprendimento per rinforzo in cui un agente impara a creare una politica basata su una funzione della qualità delle azioni. Sebbene ChatGPT non utilizzi direttamente il Q-learning, si tratta di un concetto importante nell'IA e potrebbe essere utilizzato in versioni future di ChatGPT o di modelli simili.

Quantizzazione: processo di riduzione del numero di valori diversi che un insieme continuo di valori può assumere. In termini di apprendimento automatico, la quantizzazione può essere utilizzata per comprimere i modelli e migliorarne la velocità e l'efficienza. Tuttavia, va notato che ChatGPT non è quantizzato nella sua forma attuale.

Rete neurale quasi ricorrente (QRNN): un tipo di rete neurale che combina alcune delle proprietà delle RNN convenzionali e delle reti neurali convoluzionali (CNN). Sebbene ChatGPT sia basato sull'architettura Transformer e non utilizzi le QRNN, esse sono un concetto rilevante nella ricerca sull'intelligenza artificiale.

R

Rete neurale ricorrente (RNN): un tipo di rete neurale progettata specificamente per elaborare dati sequenziali memorizzando informazioni sugli input precedenti nel suo stato interno. Sebbene ChatGPT non sia basato su RNN, ma su un'architettura chiamata Transformer, le RNN sono un concetto importante in NLP.

Regolarizzazione: tecniche utilizzate per prevenire l'overfitting in un modello di apprendimento automatico, limitando la complessità del modello. In ChatGPT, ciò può essere ottenuto con metodi quali la rimozione del peso o il dropout.

ReLU (Unità lineare rettificata): Funzione di attivazione utilizzata nelle reti neurali. Sebbene non sia utilizzata specificamente in ChatGPT (che utilizza invece la funzione di attivazione GELU), ReLU è una delle funzioni di attivazione più comunemente utilizzate nell'apprendimento automatico.

Apprendimento per rinforzo: Un'area dell'apprendimento automatico in cui un agente impara a eseguire azioni ottimali interagendo con il suo ambiente. Sebbene ChatGPT non sia addestrato con l'apprendimento per rinforzo, si tratta di un concetto importante nell'IA.

Classifica: il compito di ordinare gli elementi in base alla loro rilevanza o importanza. Nel contesto di ChatGPT, ciò potrebbe significare classificare le risposte generate in base alla loro probabilità.

Inizializzazione casuale: il processo di inizializzazione dei pesi di una rete neurale con piccoli valori casuali all'inizio dell'addestramento. Questo metodo è utilizzato anche in ChatGPT.

Rete neurale ricorrente (RNN): un tipo di rete neurale progettata per elaborare dati sequenziali memorizzando informazioni sugli input precedenti. Sebbene ChatGPT sia basato sull'architettura Transformer e non sulle RNN, le RNN sono un concetto rilevante nell'AI e nell'NLP.

S

Modello sequenza-sequenza (Seq2Seq): Una classe di modelli che hanno lo scopo di trasformare una sequenza in ingresso in una sequenza in uscita. Questi modelli sono spesso utilizzati per compiti come la traduzione automatica o la sintesi di testi. ChatGPT può essere considerato un tipo di modello Seq2Seq, in quanto trasforma il testo in ingresso in testo in uscita.

Apprendimento supervisionato: Un tipo di apprendimento automatico in cui un modello impara da esempi di coppie input-output. Il preallenamento di ChatGPT può essere considerato una forma di apprendimento supervisionato, in quanto il modello apprende da coppie di sequenze di testo e dalle relative continuazioni.

Stochastic Gradient Descent (SGD): tecnica di ottimizzazione comunemente utilizzata per addestrare modelli di apprendimento automatico, tra cui ChatGPT. SGD stima il gradiente della funzione di perdita rispetto ai parametri del modello e lo utilizza per modificare i parametri nella direzione che minimizza la perdita.

Funzione softmax: funzione spesso utilizzata nei modelli di apprendimento automatico per convertire le uscite di un modello in una distribuzione di probabilità. In ChatGPT, la funzione softmax viene utilizzata per calcolare le probabilità della parola successiva nella sequenza di testo.

Scalatura: nel contesto dell'architettura Transformer su cui si basa ChatGPT, la scalatura viene utilizzata per controllare la dimensione dei valori del prodotto di punti nella funzione di attenzione. Ciò consente di evitare problemi di stabilità numerica.

Autoattenzione: componente chiave dell'architettura di Transformer. L'autoattenzione consente al modello di considerare le relazioni tra le diverse parole di una sequenza di testo, indipendentemente dalla loro posizione nella sequenza.

Embedding di frase: rappresentazione di una frase come vettore in uno spazio ad alta dimensionalità. Sebbene ChatGPT non utilizzi direttamente gli embedding di frase (lavora a livello di token di parole), si tratta di un concetto rilevante in NLP.

T

Transformer: l'architettura su cui si basa ChatGPT. I modelli Transformer utilizzano meccanismi chiamati "Self-Attention" e "Positional Encoding" per tenere conto del contesto delle parole in ingresso, indipendentemente dalla loro posizione.

Token: unità di testo che viene elaborata da un modello come ChatGPT. Un token può essere una singola parola, un carattere o una sottoparola, a seconda del tipo di tokenizzatore utilizzato.

Tokenizzazione: il processo di scomposizione del testo in token che possono essere elaborati da un modello. ChatGPT utilizza una forma di tokenizzazione nota come codifica a coppie di byte.

Addestramento: il processo attraverso il quale un modello di apprendimento automatico impara dai dati. In ChatGPT, questo include il pre-addestramento su un ampio corpus di testi e la messa a punto su compiti specifici.

Apprendimento di trasferimento: un approccio nell'apprendimento automatico in cui un modello addestrato su un compito viene adattato per lavorare su un altro compito. In ChatGPT, un modello che è stato addestrato su un corpus di testo generale attraverso il pre-addestramento viene messo a punto per lavorare su compiti di dialogo specifici.

Tensori: un tipo di struttura dati utilizzata nell'apprendimento automatico e in particolare in librerie come TensorFlow e PyTorch. In ChatGPT, i tensori sono utilizzati per rappresentare i dati di ingresso e di uscita.

Generazione di testo: il compito di generare un testo che sembri umano. È il compito principale di ChatGPT.

U

Apprendimento non supervisionato: Un approccio all'apprendimento automatico in cui i modelli imparano dai dati di input senza coppie specifiche di input-output. Sebbene il pretraining di ChatGPT possa essere considerato una forma di apprendimento supervisionato, presenta aspetti di apprendimento non supervisionato, in quanto mira a riconoscere la struttura di grandi dati testuali.

Underfitting: un problema nell'apprendimento automatico in cui un modello è troppo semplice per catturare efficacemente la struttura dei dati. L'underfitting è l'opposto dell'overfitting, quando un modello è troppo complesso e comincia ad apprendere il rumore dei dati piuttosto che la struttura sottostante.

Interfaccia utente (UI): L'interfaccia attraverso la quale gli utenti interagiscono con un sistema. Nel caso di ChatGPT, si tratta solitamente di un'interfaccia di input e output di testo.

Unicode: Uno standard internazionale che codifica i caratteri di quasi tutti i sistemi di scrittura del mondo. ChatGPT è in grado di elaborare il testo in Unicode, il che significa che è in grado di comprendere e generare una varietà di lingue e sistemi di scrittura.

V

Vettore: oggetto matematico che ha una direzione e una grandezza. Nel contesto di ChatGPT, le parole e le frasi sono spesso rappresentate come vettori in uno spazio ad alta dimensionalità.

Funzione di perdita: Una funzione che minimizza il modello durante il processo di addestramento. Nel caso di ChatGPT, si tratta solitamente della funzione di perdita cross-entropy, che misura la differenza tra gli output del modello e i valori target effettivi.

Set di convalida: un set di dati utilizzato durante il processo di addestramento per valutare le prestazioni del modello ed evitare che si adatti eccessivamente alla formazione. Si tratta di un aspetto importante dell'apprendimento automatico e dello sviluppo di modelli.

Modello di spazio vettoriale: un concetto di information retrieval e NLP in cui i documenti di testo (o frasi, paragrafi, ecc.) sono rappresentati come vettori in uno spazio vettoriale comune. Sebbene ChatGPT non utilizzi direttamente modelli di spazio vettoriale, il concetto sottostante è rilevante perché il modello converte parole e frasi in vettori.

Variational Autoencoder (VAE): un tipo di rete neurale utilizzata per l'apprendimento non supervisionato. Sebbene ChatGPT non utilizzi i VAE, si tratta di un concetto rilevante nella ricerca sull'intelligenza artificiale.

Vocabolario: L'insieme di tutte le parole (o token) che un modello come ChatGPT è in grado di riconoscere. Il vocabolario di ChatGPT comprende decine di migliaia di token diversi.

Volatilità: termine utilizzato per descrivere la quantità di variazione o incertezza negli output di un modello. Nel contesto di ChatGPT, la volatilità degli output del modello può essere controllata regolando i parametri "Temperatura".

W

Word Embedding: rappresentazione delle parole come vettori in uno spazio ad alta dimensionalità. Sebbene ChatGPT lavori a livello di token piuttosto che di parole, il word embedding è un concetto fondamentale in NLP.

Pesi: I parametri che una rete neurale apprende durante l'addestramento. In ChatGPT ci sono milioni di pesi che vengono regolati con il metodo della discesa stocastica del gradiente.

Word2Vec: un algoritmo popolare per la creazione di word embeddings. Sebbene ChatGPT non utilizzi direttamente Word2Vec, si tratta di un concetto rilevante in NLP.

Decadimento del peso: tecnica di regolarizzazione delle reti neurali che aiuta a prevenire l'overfitting. Funziona introducendo una penalità per i pesi grandi.

Vocabolario: L'insieme di parole o token che un modello come ChatGPT può riconoscere e utilizzare.

Ulteriore apprendimento (fine-tuning): Il processo di adattamento di un modello pre-addestrato a un compito specifico. In ChatGPT, questo include la messa a punto del modello su dati di dialogo specifici.

Whitelist e blacklist: Elenchi di parole o frasi esplicitamente consentite (whitelist) o vietate (blacklist). Tali elenchi possono essere utilizzati per controllare l'output di ChatGPT, anche se il modello cerca fondamentalmente di capire il contesto dell'input e di generare un output appropriato.

X

non ci sono ancora termini

Y

non ci sono ancora termini

Z

Apprendimento a zero colpi: un approccio nell'apprendimento automatico in cui un modello è in grado di eseguire compiti per i quali non ha visto esempi specifici durante l'addestramento. ChatGPT spesso dimostra capacità di zero-shot perché è in grado di rispondere a una varietà di input senza essere stato addestrato esplicitamente su ogni possibile input.

Stringa di caratteri (String): Una sequenza di caratteri. Nel contesto di ChatGPT, sia gli ingressi che le uscite del modello sono stringhe.

Serie temporale: una sequenza di punti di dati disposti in ordine cronologico. Sebbene ChatGPT non sia specificamente progettato per lavorare con le serie temporali, può essere utilizzato per generare testi che tengano conto degli aspetti temporali.


Contributo pubblicato

in

da