Eccoci con la seconda parte dell’articolo a puntate. Siete pronti? Se non avete letto la prima parte, la trovate cliccando qui.
Vi ricordo che parliamo di intelligenza artificiale, e che per brevità usiamo l’acronimo IA (nei testi in inglese, ma a volte anche in italiano, troverete AI),
Riassunto della prima parte
Abbiamo parlato di IA iniziando dal sistema di IA più famoso, ChatGPT, e abbiamo elencato alcuni altri esempi di applicazioni dell’IA – chiedendo l’elenco proprio a ChatGPT.
Anche le figure sono state ottenute da sistemi di IA.
Cosa vediamo oggi
Oggi vorrei soddisfare la curiosità di alcuni spiegando in breve come ho ottenuto testo e immagini per la prima parte dell’articolo.
Questo serve anche per togliere almeno parte dell’alone di mistero e magari sgomento che circonda questi strumenti: per far questo, accenneremo anche un po’ a cosa “c’è dietro”.
Ma non voglio annoiarvi troppo, perciò faremo così:
Scriverò alcune parti in colore rosa, con la barretta a fianco, come questa: sono le parti per i più curiosi; chi ha fretta le può saltare.
Subito due punti importanti, di più il secondo:
- questo articolo non è un corso su come usare l’IA, le spiegazioni servono solo per capire di più con che cosa abbiamo a che fare
- questo articolo non vuol essere una santificazione o una pubblicità dell’IA! Ma se mai l’opposto.
Definizioni
Prima di andare troppo avanti… Qualcuno (giustamente) chiederà: “Caro Riccardo, va bene fare degli esempi, ma cos’è questa IA? Come si definisce?“.
Se cercate “Definizione di intelligenza artificiale” su Google o un altro sistema di ricerca troverete migliaia di risultati, come vedete qui in figura:
Nessuno riesce a dare una definizione precisa: perché non è facile stabilire un confine tra ciò che è “intelligenza” e ciò che non lo è; e poi, perché l’IA è in continua evoluzione. Per esempio, l’OCSE (L’Organizzazione per la Cooperazione e lo sviluppo economici) ha recentemente aggiornato la sua definizione di IA.
Comunque, una definizione semplice, ma abbastanza valida può essere questa:
L’IA è una disciplina scientifica che studia e sviluppa sistemi tecnologici (macchine e programmi) che hanno caratteristiche che usualmente vengono considerate tipicamente “umane”
Perciò l’IA non è una “cosa”: quindi non è corretto dire (come spesso si sente) “una” intelligenza artificiale, “le” intelligenze artificiali. Tuttavia, questa non è una definizione perfetta: se ci pensate, anche le prime macchine calcolatrici (anche quelle meccaniche) facevano cose tipicamente “umane”: i calcoli. Ma non ci è mai venuto in mente di chiamarle Intelligenza Artificiale. Ne parliamo anche più avanti.
Per migliorare la definizione, si possono aggiungere due caratteristiche importanti che (ad oggi) distinguono queste tecnologie da altre tecnologie informatiche, ossia autonomia ed adattività;
-
- l’autonomia è la capacità di eseguire determinate azioni senza supervisione umana
- l’adattività è la capacità di migliorare comportamenti e caratteristiche imparando dall’esperienza
Per chi è interessato ecco la definizione di IA (tradotta) dal sito OCSE:
“Un sistema di intelligenza artificiale è un sistema basato su macchine che,
- per obiettivi espliciti o impliciti,
- deduce – dall’input che riceve
- come generare output come previsioni, contenuti, raccomandazioni o decisioni
- che possono influenzare ambienti fisici o virtuali.
Diversi sistemi di intelligenza artificiale variano nei loro livelli di autonomia e adattività (dopo l’implementazione).”
(Francamente, non un capolavoro di leggibilità!!!)
Suggerimento – Invece di ChatGPT
Prima di continuare, ecco una alternativa a ChatGPT.
Chi ha provato a iscriversi a ChatGPT avrà visto che durante l’iscrizione occorre “passare” una verifica dell’ età (inviando un documento di identità o una foto).
Questa richiesta è conseguenza del Provvedimento del Garante per la privacy dell’11 aprile 2023, che l’aveva bloccata in Italia, e solo in seguito ad alcuni interventi (tra cui il controllo dell’età) era stata poi sbloccata.
Per velocizzare, ecco un’alternativa che al momento non fa verifiche:
Clicca qui a destra → copilot.microsoft.com
È Copilot di Microsoft (con utente Microsoft o anche senza registrarsi). Volendo c’è anche una App per Android.
Come ho ottenuto testo e figure della prima parte
Il testo
ChatGPT propone in basso una minuscola casella per inserire il testo della domanda o richiesta che vogliamo fare. Ma potete scrivere anche un testo lungo, anche un intero articolo, fino a 4096 caratteri.
Io ho scritto questo (You corrisponde a chi fa la domanda):
In pochi secondi ho visto comparire (proprio come se qualcuno digitasse sulla tastiera) il testo con la risposta (ne metto solo una parte, ma è il testo che vedete in colore marroncino nella prima parte):
Rileggendo, ho trovato due termini che non mi piacevano, e l’ho “detto” a ChatGPT:
Il “bot” ha prontamente sostituito “algoritmi predittivi” con “programmi avanzati” e “vasti dataset” con “grandi insiemi di dati“.
Questa è una caratteristica interessante da sapere subito: le domande e risposte non sono isolate, ma fanno parte di una conversazione, per cui ChatGPT “si ricorda” quello che si è detto sopra. In passaggi successivi si può quindi (con qualche cautela) migliorare il risultato.
Le figure
Per la figure ho provato diversi strumenti gratuiti: dopo un po’ di prove, quello che suggerisco è Leonardo AI, è il più veloce; e in più, lascia creare gratuitamente molte più immagini di altri:
Clicca qui a destra → leonardo.ai
Leonardo AI concede 150 “crediti ” al giorno; per fare un’immagine piccola ne bastano 8, quindi 18 immagini al giorno.
Oppure, se vi siete registrati su ChatGPT, potete usare DALL-E.
Ho utilizzato queste parole per ottenere l’immagine all’inizio del primo articolo:
“Un uomo seduto a scuola e un robot che insegna alla lavagna”
Ho ricevuto quattro varianti dell’immagine: ho scelto quella dove c’erano, invece dell’uomo, chi sa perché – dei ragazzini.
Attenzione! Non troverete la stessa immagine che ho trovato io… anche usando le stesse parole. Di questa casualità riparleremo.
Personalmente trovo vantaggioso utilizzare la generazione di immagini in tutti i casi in cui mi serve una figura precisa, perché trovarla tramite ricerca Google è laborioso. Per di più, quasi sempre si trovano immagini che hanno un Copyright, quindi legalmente non si possono usare.
Le immagini create con l’AI al momento sono di libero uso, anche se sarebbe sempre corretto riferire come sono state ottenute …come sto facendo! 🙂
Con Leonardo AI ho poi ancora rielaborato l’immagine per ottenere quella più grande che si vede sulla pagina principale del sito:
Potrei dilungarmi in esempi ma forse la cosa migliore è che facciate qualche prova, con testi e immagini. Naturalmente, se avete bisogno di suggerimenti, scrivete nei commenti.
Ma come funziona tutto quanto?
È la domanda che viene spontanea, dopo aver visto “spuntare” un lungo e dettagliato testo, o una ricetta di cucina, o una mail bell’e pronta, il tutto con una semplice domanda. Le prime volte ero decisamente impressionato.
Che c’è dietro? Smontiamo un po’ il giocattolo.
Cose conosciute
Partiamo da qualche cosa che conosciamo. È da tempo che non ci stupiamo più di vedere il PC che fa calcoli in una tabella, o Google Maps che ci fa trovare una località in pochi secondi.
Ma io ricordo che ero affascinato dal primo calcolatore che ho usato – ormai 50 anni fa – (grande come un frigo a due porte, ma con una memoria che era quindici milioni di volte più piccola di quella di un normale smartphone odierno), perché mi risolveva in pochi secondi un problema che con la calcolatrice (ebbene sì, erano le prime, ma esistevano già!!) mi avrebbe richiesto decine di passaggi.
Ma oggi non siamo nemmeno più stupiti dal fatto che WhatsApp ci suggerisca una parola appena iniziamo a digitarla (combinando poi regolarmente pasticci se non stiamo attenti!).
Proviamo ChatGPT
Vediamo cosa succede con ChatGPT, ecco una prova che possiamo fare (You è sempre chi scrive la domanda):
Suona strano o complicato? No, vero? Come un gioco per bambini!
Abbiamo detto che ChatGPT è stata “nutrita” (ricordate il robottino “Numero cinque”: ancora input!!!) con una immensa quantità di testi.
ChatGPT in questo caso ha “indovinato” la parola più probabile da inserire nella frase, considerando tutti i testi che si era “divorato” in precedenza.
Moltiplichiamo la “semplicità” dell’indovinello del prato per miliardi di volte, e avremo le capacità di risposta che oggi ci sorprendono.
Che c’è dietro?
Non c’è una vera “intelligenza”, ma una gigantesca quantità di informazioni e soprattutto di collegamenti tra parole e gruppi di parole. Infatti i sistemi che stanno dietro a ChatGPT ragionano per gruppi di parole ed è tra gruppi di parole che cercano il collegamento.
Se il primo balzo in avanti dell’informatica è stata la grande capacità di elaborare dati in forma di numeri (sommando, moltiplicando, confrontando), possiamo pensare questo altro salto come la capacità di elaborare parole: o meglio, intere frasi. Si potrebbe dire che oggi, invece delle regole di matematica, ci sono le regole del linguaggio.
A tutto questo i sistemi di IA arrivano grazie all’enorme capacità di memoria e di calcolo a cui le macchine oggi sono arrivate. Non è tutto automatico: per arrivare al funzionamento ci sono diverse fasi di “addestramento” che includono anche l’intervento umano per “insegnare” alla macchina le relazioni tra i dati, e altre fasi in cui la macchina “macina” i dati per “farsi una propria idea” dei collegamenti, trovandone anche di nuovi: è il cosiddetto auto apprendimento.
Per chi è curioso, la sigla GPT sta per Generative Pre-trained Transformer.
- Generative: perché è un tipo di IA che “genera” qualcosa (testo, in questo caso)
- Pre-trained: perché, appunto, è stata “istruita” (trained)
- Transformer: è il nome del tipo di algoritmo utilizzato per passare da un testo ad un altro (ma vale anche per altri contesti).
E per le immagini? In questo caso l’addestramento del sistema si fa utilizzando una mole di immagini ciascuna delle quali ha una sua descrizione (attualmente esiste un database di 400 milioni di immagini). In questo caso quindi, invece di associare testo a testo, l’IA associa immagini e testi.
Questo database di 400 milioni di immagini si chiama CLIP. Chi mi segue un po’ conosce i due siti di Avvento e Quaresima, in cui ogni pagina c’è una foto in tema con il testo.
Per trovare, tra le mie 40000 foto, quelle da abbinare ai testi ho adoperato un programma su PC (si chiama rclip appunto perché basato su CLIP), che cerca la foto in base a una parola o una frase.
In questo modo ho evitato l’immenso lavoro di sfogliare la mia collezione o la fatica di dover ricordare quando ho scattato un certa foto.
In parecchi casi ho trovato foto che neppure ricordavo.
Il fatto sorprendente è che non solo mi trova la foto di “albero”, “fiore”, o magari di “chiesa con palme e ulivi”, ma anche di “landa desolata”, o addirittura di “solitudine”, quindi parole associate, evocative, ma non descrittive, dell’immagine.
Cosa potete chiedere?
Ecco alcune cose che potete chiedere a ChatGPT (o Copilot o altre).
- scrivere un testo su un dato argomento (come ho fatto io)
- rispondere a una domanda
- scrivere il riassunto di un testo
- scrivere un programma informatico in un certo linguaggio
- scrivere una poesia (ma non ve lo consiglio! Sareste delusi, ne riparleremo!)
- correggere tutti gli errori di un testo (la fa anche Word o OpenOffice, ma qui gli errori vengono corretti tutti in una volta)
- scrivere una ricetta indicando gli ingredienti
- scrivere il testo di una e-mail
- tradurre un testo da una lingua ad un’altra (anche in latino, sì! Anche qui cautela!)
- dividere un testo in paragrafi e aggiungere la punteggiatura e le maiuscole, correggendo eventuali errori
Ho utilizzato quest’ultima una volta in cui ho estratto come testo l’intero parlato da un video di YouTube di oltre un’ora. Il testo esce senza a capo, punteggiatura e maiuscole, quasi illeggibile. ChatGPT mi ha risparmiato un bel po’ di fatica, chiedendo questo: “Puoi dividere il testo seguente in paragrafi, aggiungere la punteggiatura e le maiuscole dove necessario?” e aggiungendo di seguito il testo.
E Google?
Diciamolo subito: ChatGPT (e gli altri) non sostituiscono Google (e gli altri, poco conosciuti, sistemi di ricerca), ma fanno un altro lavoro.
Tramite Google avete un assortimento di risultati (che potete personalizzare usando in modo abile le opzioni di ricerca) e tra questi siete voi a scegliere quello che è più adatto alla vostra necessità. ChatGPT vi dà una forma discorsiva sì, ma solo di una delle possibili risposte.
ChatGPT, inoltre, non è aggiornato in tempo reale, si basa su testi fissi, aggiornati al 2022. Quindi non conosce le ultime novità.
Un po’ diverso Copilot, che “legge” direttamente internet anche tramite il motore di ricerca Bing.
Con Google, cliccando, potete poi accedere alla pagina trovata, e (entro certi limiti) capire da chi è scritta, quando è stata scritta, verificare il contenuto paragonandola ad altre fonti. Potete farvi una vostra idea.
Con ChatGPT, avrete “l’idea di ChatGPT”.
(per essere precisi: “Una delle idee di ChatGPT)
Ed è su questo, per l’appunto, che torneremo la prossima volta.
Come per la prima parte, sarò contento se farete domande o proposte di approfondimento nei commenti. È un articolo che si sviluppa anche così!
Riccardo Poggi
È uscita la terza puntata, clicca qui per leggere!
Riccardo Grazie Un OTTIMO LAVORO
CORRETTO, PRECISO e COMPRENSIBILE
Ti chiedo un ulteriore sforzo
A ) Potresti spiegare la differenza tra SISTEMI ESPERTI ( cose che si studiavano qualche anno fa) ed AI ?
B) Esiste un AI da utilizzare durante le videoconferenze ( con zoom o Google Meet o altro) in modo che possa scrivere il verbale di quanto viene detto durante le videoconferenze? ( ho sentito parlare di Otter.Ai ma temo che funzioni solo per la lingua inglese )
Grazie ed ancora COMPLIMENTI
Tommaso
Ciao Tommaso, che piacere sentirti!
Grazie! I tuoi complimenti per me valgono il doppio, vista la tua competenza.
Il paragone tra sistemi esperti e AI credo sia molto interessante e se ne può parlare.
Riguardo agli assistenti per le riunioni Zoom non ho esperienza, ma vedo adesso che ce ne sono diversi, Quasi tutti hanno una opzione gratuita limitata (come minuti e/o come numero di trascrizioni) e qualcuno ha l’italiano tra le lingue accettate (vedo per esempio fireflies.ai). Ci posso dare un’occhiata anche io e possiamo scambiarci le esperienze.
Molto bene ! Ti chiedevo al riguardo della necessità a questo punto indispensabile di poter riconoscere subito quando un Testo o Immagine o Video sia fatta con IA con una specie di Bollino o Filigrana: ne han parlato recentemente …
E poi al riguardo degli aspetti Normativi ed Etici altrimenti sarei molto preoccupato per il diffondersi di Falsi anche gravi e pericolosi , perdita di posti di lavoro, di Privacy etc.
E nel contesto attuale di Guerre e divisioni la pericolosità che potrebbe nascere da paesi ostili e dittatoriali …
Grazie , Oscar
Ciao Oscar, tutto questo sarà nella prossima (o penso prossime) puntate. È il vero argomento interessante.
Ciao, Riki, artico
lo molto avvincente. E’ mica possibile applicarla ad un file audio di una registrazione in modo da ottenere automaticamente la trascrizione? O è meglio per questo utilizzare un programma adatto? La cosa mi interessa perche dovrei trascrivere delle registrazioni che ho fatto. Grazie per tutto e vai avanti, che ti seguo!
Sono vere entrambe le cose. Mi spiego meglio.
I programmi che trasformano un parlato in testo (STT – speech to text) esistono da tempo e fanno sempre meglio il loro lavoro, non sono IA. Ce ne sono alcuni per mp3, o anche mp4 o direttamente da YouTube.
Però l’IA può dare una mano notevole: infatti, un sistema come ChatGPT permette di sistemare il testo ottenuto dal programma STT, che è senza maiuscole, senza a capo e magari ha degli errori. Io l’ho fatto e ne accenno nell’articolo nella parte in rosa, subito prima di parlare di Google.
La novità è che esistono sistemi che mettono assieme le due cose, ossia STT e IA, e fanno anche di più di quello che ho detto sopra:
Una volta ottenuta la trascrizione, tu cambi “Speaker 1” con il nome della persona corrispondente e così via.
Il problema è che le versioni gratuite sono limitate a una durata breve, per esempio 15 minuti di parlato, o hanno comunque altre limitazioni.
Stavo studiandoci in seguito al commento di Tommaso.
Per te probabilmente usare un STT normale più ChatGPT o Copilot potrebbe andare bene.
Al momento l’unico STT che ho visto con un po’ di margine è Zamzar: https://www.zamzar.com/tools/audio-to-text/
Che ha un margine di 50 MB di audio.
(Poco fa avevo scritto AudioType ma ha dei limiti stretti)
Se trovo altro lo aggiungo.
Ecco:
Puoi utilizzare anche questo: converter.app.
Grazie Riccardo, la saga di sta facendo avvincente!
Trovo molto utili le descrizioni e gli esempi.
Alla fine del corso si potrebbe organizzare un momento di dialogo e confronto. Magari sfruttando qualche occasione di incontro in presenza.
Credo infatti che il Carisma ci possa dare una potente chiave di lettura per apprezzare i vantaggi della tecnica ed evitarne i rischi, ripetendo con parole di oggi l’eterna verità del mistero di amore che tiene in vita noi e l’universo intero.
Ciao Sandro,
mi pare un’ottima idea.
Soprattutto se riusciamo a fare un momento in presenza, per sottolineare l’importanza della nostra “umana saggezza” che ci viene anche dall’incontro.
Ciao Riccardo, aprire una finestra sul mondo dell’IA è una bella sfida sia per gli addetti ai lavori che per chi mastica poco l’ utilizzo dell’ informatica.
Lo sforzo di fare vedere non solo la punta dell’ iceberg di questa nuova applicazione nel mondo dell’informatica ma quello che c’è sotto è di grande aiuto per essere più consapevoli di come si evolve la tecnologia che da una parte può aiutarci ma che poi lascia anche tanti interrogativi e perplessità.
Mi veniva in mente quando abbiamo formato web4unity per dare un aiuto a chi si avvicinava a questo mondo e all’ utilizzo consapevole delle mail e altre iniziative.
Grazie di continuare su questa strada!!
Ciao Paolo,
Quell’epoca è venuta in mente anche a me. Sono passati quasi 20 anni da quell’incontro a Bra con grandissima partecipazione. All’epoca mail e internet erano una novità per tanti e di conseguenza nasceva un grande interesse e curiosità. Adesso sta avvenendo lo stesso per l’IA, e si moltiplicano gli incontri e gli articoli online o in TV.
Allora per noi uno dei temi ricorrenti era la necessità di uscire dal virtuale e incontrarci di persona. Credo che la stessa cosa (e forse di più) valga per tutto quello che riguarda la IA nelle sue varie forme.
Ho giocato ed ho trovato una prima soluzione e si chiama. Tactiq.
E’ di fatto un programma che è una estensione di Google e trascrive un parlato in un testo. Io l’ho usato in due o tre videoconferenze da me organizzate con Google meet. (ma funziona anche con zoom). Alla fine della videoconferenza ( eravamo in sei o sette persone) mi ha fatto la trascrizione scritta di ogni persona. La trascrizione è sia in lingua inglese che italiano. E qui la cosa è semplice. Ma poi ho chiesto anche di redigere un Summary e mi ha fatto un riassunto della riunione. Il riassunto mi è uscito in lingua inglese ma alla intelligenza artificiale installata dentro il sistema TACTIQ ho chiesto la traduzione in italiano del Summary ed ecco magicamente il RIASSUNTO della riunione.
Quindi pochi minuti dopo aver terminato la videoconferenza fatta con Google meet ho ottenuto con un paio di clic il riassunto della riunione e l’ho spedita a tutti i partecipanti.
Ci saranno senz’altro altri strumenti. Ma vi volevo raccontare la mia esperienza con Tactiq.