In evidenza
Sezioni
Magazine
Annunci
Quotidiani GNN
Comuni
      1. Aiello del Friuli
      2. Amaro
      3. Ampezzo
      4. Andreis
      5. Aquileia
      6. Arba
      7. Arta Terme
      8. Artegna
      9. Arzene
      10. Attimis
      11. Aviano
      12. Azzano Decimo
      1. Bagnaria d'Arsa
      2. Barcis
      3. Basiliano
      4. Bertiolo
      5. Bicinicco
      6. Bordano
      7. Brugnera
      8. Budoia
      9. Buia
      10. Buttrio
      1. Camino al Tagliamento
      2. Campoformido
      3. Campolongo al Torre
      4. Caneva
      5. Carlino
      6. Casarsa della Delizia
      7. Cassacco
      8. Castelnovo del Friuli
      9. Castions di Strada
      10. Cavasso Nuovo
      11. Cavazzo Carnico
      12. Cercivento
      13. Cervignano del Friuli
      14. Chions
      15. Chiopris-Viscone
      16. Chiusaforte
      17. Cimolais
      18. Cividale del Friuli
      19. Claut
      20. Clauzetto
      21. Codroipo
      22. Colloredo di Monte Albano
      23. Comeglians
      24. Cordenons
      25. Cordovado
      26. Corno di Rosazzo
      27. Coseano
      1. Dignano
      2. Dogna
      3. Drenchia
      4. Enemonzo
      5. Erto e Casso
      1. Faedis
      2. Fagagna
      3. Fanna
      4. Fiume Veneto
      5. Fiumicello
      6. Flaibano
      7. Fontanafredda
      8. Forgaria nel Friuli
      9. Forni Avoltri
      10. Forni di Sopra
      11. Forni di Sotto
      12. Frisanco
      1. Gemona del Friuli
      2. Gonars
      3. Grimacco
      1. Latisana
      2. Lauco
      3. Lestizza
      4. Lignano Sabbiadoro
      5. Ligosullo
      6. Lusevera
      1. Magnano in Riviera
      2. Majano
      3. Malborghetto Valbruna
      4. Maniago
      5. Manzano
      6. Marano Lagunare
      7. Martignacco
      8. Meduno
      9. Mereto di Tomba
      10. Moggio Udinese
      11. Moimacco
      12. Montenars
      13. Montereale Valcellina
      14. Morsano al Tagliamento
      15. Mortegliano
      16. Moruzzo
      17. Muzzana del Turgnano
      1. Nimis
      1. Osoppo
      2. Ovaro
      1. Pagnacco
      2. Palazzolo dello Stella
      3. Palmanova
      4. Paluzza
      5. Pasian di Prato
      6. Pasiano di Pordenone
      7. Paularo
      8. Pavia di Udine
      9. Pinzano al Tagliamento
      10. Pocenia
      11. Polcenigo
      12. Pontebba
      13. Porcia
      14. Pordenone
      15. Porpetto
      16. Povoletto
      17. Pozzuolo del Friuli
      18. Pradamano
      19. Prata di Pordenone
      20. Prato Carnico
      21. Pravisdomini
      22. Precenicco
      23. Premariacco
      24. Preone
      25. Prepotto
      26. Pulfero
      1. Ragogna
      2. Ravascletto
      3. Raveo
      4. Reana del Rojale
      5. Remanzacco
      6. Resia
      7. Resiutta
      8. Rigolato
      9. Rive d'Arcano
      10. Rivignano
      11. Ronchis
      12. Roveredo in Piano
      13. Ruda
      1. Sacile
      2. San Daniele del Friuli
      3. San Giorgio della Richinvelda
      4. San Giorgio di Nogaro
      5. San Giovanni al Natisone
      6. San Leonardo
      7. San Martino al Tagliamento
      8. San Pietro al Natisone
      9. San Quirino
      10. San Vito al Tagliamento
      11. San Vito al Torre
      12. San Vito di Fagagna
      13. Santa Maria La Longa
      14. Sauris
      15. Savogna
      16. Sedegliano
      17. Sequals
      18. Sesto al Reghena
      19. Socchieve
      20. Spilimbergo
      21. Stregna
      22. Sutrio
      1. Taipana
      2. Talmassons
      3. Tapogliano
      4. Tarcento
      5. Tarvisio
      6. Tavagnacco
      7. Teor
      8. Terzo d'Aquileia
      9. Tolmezzo
      10. Torreano
      11. Torviscosa
      12. Tramonti di Sopra
      13. Tramonti di Sotto
      14. Trasaghis
      15. Travesio
      16. Treppo Carnico
      17. Treppo Grande
      18. Tricesimo
      19. Trivignano Udinese
      1. Udine
      1. Vajont
      2. Valvasone
      3. Varmo
      4. Venzone
      5. Verzegnis
      6. Villa Santina
      7. Villa Vicentina
      8. Visco
      9. Vito d'Asio
      10. Vivaro
      1. Zoppola
      2. Zuglio
Intelligenza artificiale

Dietro le quinte di ChatGPT e Lensa: cosa sono Laion 5B e Common Crawl e come funzionano

Dietro le quinte di ChatGPT e Lensa: cosa sono Laion 5B e Common Crawl e come funzionano
Oltre 1 milione di utenti e 10 milioni di download per i due esempi più concreti di quello che sanno fare le IA. Qui spieghiamo come si costruiscono, dove prendono le informazioni, quanto costa realizzarle
5 minuti di lettura

Dall’inizio di dicembre sono l’argomento del giorno, più o meno tutti i giorni, anche se non si è appassionati di tecnologia: “Hai visto che cosa può fare Lensa con le tue foto?”, e anche “ho scritto un sonetto usando ChatGPT”. O una canzone, un tema, un saggio, venti righe di codice.

Lensa e ChatGPT sono i due esempi non solo più recenti ma pure più solidi di quello che possono fare le intelligenze artificiali, di tutte quelle potenzialità sinora solo promesse ma ora finalmente accessibili a tutti, pagando oppure registrandosi. E ovviamente l’interesse delle persone è cresciuto tantissimo.

google trends: le ricerche per ChatGPT e Lensa in Italia

Tutti pazzi per le IA

Le ricerche su Google per questi due servizi, a livello mondiale ma pure in Italia (grafico qui sopra), sono aumentate a dismisura appunto dal 30 novembre, mentre le iscrizioni alla subreddit ChatGPT su Reddit (che è questa) sono cresciute da 0 a 25mila nel giro di una decina di giorni e i responsabili di ChatGPT (che qui abbiamo messo alla prova) hanno raccontato di avere raggiunto 1 milione di utenti in soli 5 giorni dal debutto del servizio.

Per avere un’idea di che cosa significhi questo traguardo, è utile ricordare che Instagram ha toccato il suo primo milione dopo circa 75 giorni e che a Spotify sono serviti addirittura 150 giorni per farcela.

Cos’è lo scraping e come si allena un’intelligenza artificiale

Per avere tutto questo successo e per riuscire a fare quello che fanno, Lensa e ChatGPT (ma pure Bert e MUM, gli algoritmi di IA di Google) hanno iniziato più o meno nello stesso modo: leggendo tutta Internet, per dirlo in modo semplice. Per sapere che cosa dire, o capire cosa vogliamo dirgli, Bert si basa su circa 300 milioni di parametri, mentre GPT-3 (che è quello usato da ChatGPT) addirittura su 175 miliardi. Si è letto tutta Wikipedia in inglese, che però rappresenta appena lo 0,6% di quello che ha letto. Gli sviluppatori di Lensa le hanno fatto fare lo stesso, però con le immagini.

Ovviamente, queste IA non hanno letto come facciamo noi umani: per studiare, usano una tecnica che sia chiama scraping (in inglese vuol dire raschiare, grattare via), che consiste nel navigare la Rete raccogliendo le informazioni per poi immagazzinarle, così da usarle quando servono. Anche qui, non navigare come facciamo noi: “Semplificando, si scrive un programma che permetta al computer di farlo in automatico - ci ha spiegato Annalisa Barla, professoressa associata di Informatica del Dibris dell’Università di Genova - Non si vedono sul monitor le finestre del browser che si aprono, perché tutto succede in background”. E mentre succede, l’algoritmo impara: “Gli si può indicare quali siti consultare e quali escludere, anche classificarli in base alla loro affidabilità e autorevolezza e per ognuno partirà dalla homepage e leggerà tutte le pagine una per una, raccogliendo testi, immagini e cifre”.

Questa è la prima parte del training, ma le IA di cui stiamo parlando qui sono già oltre: “Il modello su cui si basa ChatGPT è stato chiuso a fine 2021 - ci ha ricordato Barla - e adesso sta imparando da noi”. In che senso? “La stanno allenando con gli utenti, con le domande che le fanno e con le risposte che dà: impara da questo, dalla cronologia di questi scambi, pure dai like che le persone possono dare alle risposte”. Allo stesso modo, anche Lensa impara da noi (a creare nuove facce dalle nostre facce).

twitter: ChatGPT passa gli esami di Machine learning

Che cosa sono Common Crawl e Laion 5B

Va detto che solitamente delle attività di scraping non si occupano le persone che sviluppano le IA, ma ci sono aziende che fanno proprio questo. Due delle più grandi, anche se non molto conosciute, si chiamano Common Crawl e Laion e il loro lavoro è esattamente creare enormi database da dare in pasto alle intelligenze artificiali.

La prima è una no-profit americana che dal 2011 raccoglie informazioni online attraverso lo scraping e appunto le mette a disposizione gratuitamente delle aziende che si occupano di sviluppare algoritmi di IA, che possono usarle (in teoria) non a fini di lucro. L’idea è che queste informazioni, anche se protette da copyright, siano talmente utili alla comunità da superare la tutela del diritto d’autore. Soprattutto se non ci si guadagna su. Al momento, il database di Common Crawl, che comprende prevalentemente testi e dovrebbe essere quello usato da OpenAI per ChatGPT, raccoglie oltre 3,1 miliardi di pagine e pesa circa 420 terabyte.

Laion è tedesca e fa più o meno la stessa cosa, però con le immagini: il suo nome vuole dire Large-scale Artificial Intelligence Open Network, cioè Network di IA aperto e su larga scala. L'ultimo prodotto si chiama Laion 5B, raggruppa al momento quasi 6 miliardi di immagini, con relative didascalie per descriverle, ed è un database usato (fra gli altri) per l’allenamento di Imagen o Stable Diffusion, che funzionano in modo simile alla più nota Dall-E 2. Anche qui, questa mole enorme di materiale viene messa a disposizione gratis di chi sviluppa le IA, che dunque dovrebbe (in teoria) riutilizzarlo senza lucrarci su.

Il problema del copyright

Quest’ultimo punto è importante, soprattutto quando si parla di foto: come su Italian Tech abbiamo raccontato, Lensa guadagna eccome da questi dati, chiedendo agli utenti 29,99 euro per l’abbonamento annuale, oppure 2,99 per un set di 50 interpretazioni del volto. E su Twitter ci sono tantissimi esempi di immagini prodotte da Lensa che ancora mostrano la firma dell’artista che ha realizzato il lavoro originale su cui l’IA si è basata per creare il suo. Non potrebbe essere altrimenti: le intelligenze artificiali si allenano proprio partendo dalle opere di qualcun altro.

E però: è giusto che chi ha avuto questa conoscenza gratuitamente, se la faccia pagare? Ancora: è giusto che chi ha inizialmente prodotto questa conoscenza non venga pagato per il suo sfruttamento? Che un artista digitale non veda economicamente riconosciuto il suo impegno e la sua capacità? Se foste gli eredi di Monet, Van Gogh o Picasso, non vorreste essere retribuiti da chi sfrutta le capacità dei vostri celebri antenati per mettere in piedi un business redditizio?

Probabilmente sì, anche se va considerato che una IA, soprattutto a questo livello, ha costi enormi, sia di sviluppo sia di gestione (per GPT-3, le stime parlano di circa 5 milioni di dollari iniziali): “Per fare lavorare i cosiddetti LLM, cioè i modelli che si basano su miliardi di parametri, serve una potenza di calcolo che è quasi immorale dal punto di vista ambientale - ci ha detto Barla, un po’ scherzando e un po’ no - Stanno su server composti prevalentemente da GPU, che lavorano a ritmi simili a quelli tipici del mining delle criptomonete”. Una volta che sono pronti, “servono enormi risorse hardware per farli lavorare, necessarie per poter gestire milioni di utenti contemporaneamente, e anche serve una grande capacità di storage per poter immagazzinare le loro informazioni”. Che verranno usate per costruire modelli ancora più performanti.

Sono finito in un database?

È probabile che le risposte agli interrogativi sulla legittimità di queste pratiche verranno col tempo, con l’uso e con la pratica (e con il lavoro degli avvocati), anche se una si può già avere facendo un semplice test online. Che fra l’altro permette di rendersi conto personalmente di un altro problema legato all’uso di queste intelligenze artificiali: quello della tutela della privacy, e nello specifico della tutela della propria immagine personale.

C’è un sito che è nato per questo, si chiama Have I been trained? (in italiano: Mi hanno usato per allenarsi?) ed è stato messo online dal collettivo artistico Spawning: permette di fare ricerche, testuali o per immagini, nel database di Laion, appunto per capire se una propria opera, o la propria faccia, è stata usata per addestrare una IA. L’idea è che un artista digitale possa fare l’upload di una sua creazione su Have I been trained? per scoprire in pochi secondi se è finita nella rete degli scraper e dunque se viene usata senza il suo consenso e magari a sua insaputa. Oppure, che una persona qualsiasi faccia l’upload di una sua foto per capire se il suo volto (preso magari dai social network) viene usato per allenare gli algoritmi di face recognition.

Quella per la protezione del proprio volto è una battaglia quanto mai attuale: non solo perché questi software vengono sempre più spesso usati anche dalle forze dell’ordine (sì, pure in Italia) ma anche perché ormai con la tecnologia deepfake (cos’è?), si può fare praticamente qualsiasi cosa con le facce di chiunque.

Ci sono aziende, come l’americana Affectiva, che ne hanno raccolte oltre 5 milioni e le usano per provare a insegnare alle IA a capire le emozioni degli esseri umani; altre, come Clearview AI, che prima di venire fermata dalle autorità europee, puntava ad avere 100 miliardi di foto nel database entro il 2022, così che “ogni essere umano sarà identificabile”. Quello che possiamo fare noi umani, nel nostro piccolo, è usare questi strumenti con intelligenza e consapevolezza, e anche valutare la possibilità di proteggerci e in qualche modo nasconderci, che è una cosa che si può fare semplicemente anche con il makeup. Oppure con un maglione.

@capoema