Capitolo 3. La doppia creatività¶
Dopo aver esplorato il concetto di autore ibrido nei capitoli precedenti, esaminiamo ora come si manifesta concretamente la creatività in questo nuovo paradigma collaborativo tra uomo e macchina. Questo capitolo ci permetterà di comprendere meglio le dinamiche creative che emergono dall'interazione tra l'intelligenza umana e quella artificiale.
La creatività dell'intelligenza artificiale si esprime principalmente in due modi: rispondendo alle richieste dell'utente e – per così dire – "scompigliando le carte". Quest'ultima funzione è particolarmente interessante, in quanto l'AI può combinare elementi in modi inaspettati, producendo risultati sorprendenti e talvolta innovativi.
Un esempio emblematico è ancora una volta quello di AlphaGo, l'AI sviluppata da DeepMind che, come abbiamo visto nel capitolo precedente, ha sconfitto il campione mondiale di Go, Lee Sedol. AlphaGo non si è limitata a replicare strategie umane, ma ha sviluppato approcci completamente nuovi al gioco.
È dunque un tipo di creatività computazionale che si basa sulla capacità dell'AI di analizzare enormi quantità di dati e identificare pattern che sfuggono all'occhio umano. Nel contesto della generazione di immagini, questo si traduce nella capacità di creare combinazioni visive uniche e inaspettate, spesso sorprendendo gli stessi creatori umani.
Questa nuova concezione di creatività, intesa come processo di connessione di elementi preesistenti, è stata ben descritta da Steve Jobs:
La creatività è solo collegare le cose. Quando chiedi alle persone creative come hanno fatto qualcosa, si sentono un po' in colpa perché non l'hanno fatto, hanno solo visto qualcosa. Dopo un po' sembrava ovvio per loro. [Gary Wolf, Steve Jobs: The Next Insanely Great Thing, in Wired, 1° febbraio 1996]
In un certo senso, anche l'AI segue questo percorso, combinando elementi per generare risultati che possono anche essere sorprendenti. D'altro canto, la creatività umana nel contesto dell'AI generativa si manifesta principalmente attraverso le scelte. L'utente, infatti, è responsabile di una serie di decisioni tecniche e concettuali che guidano l'intero processo creativo. Queste scelte, lungi dall'essere marginali, sono il cuore stesso della creatività umana in questo nuovo contesto.
Quando un utente si siede alla scrivania per creare con l'AI, il suo processo creativo si articola infatti in una serie di scelte che vanno ben oltre la semplice formulazione del prompt. Questo nuovo approccio alla creazione richiede una comprensione profonda sia delle possibilità offerte dall'AI che dei propri obiettivi creativi.
Il prompt è solo uno degli elementi del processo. L'utente deve considerare una serie di fattori a partire dall'obbiettivo che si pone: il tono dell'immagine desiderata? Quali elementi devono essere enfatizzati? Come si vuole che l'AI interpreti certe parole o concetti? Queste decisioni richiedono non solo creatività, ma anche una forma di "traduzione" del pensiero umano in un linguaggio comprensibile all'AI. Questo porta alla necessità di comprendere, almeno in modo basilare, il funzionamento dell'AI generativa che si sta usando, necessità che cresce proporzionalmente alla complessità del sistema.
Va fatto anche notare che non tutte le piattaforme AI offrono lo stesso grado di controllo creativo. Questa varietà riflette diverse filosofie di design e obiettivi di utilizzo, creando un ecosistema diversificato di strumenti creativi.
Alcune, come Design Image Creator di Microsoft e DALL-E, offrono opzioni limitate, privilegiando la semplicità d'uso. Queste piattaforme sono ideali per utenti che desiderano risultati rapidi con un minimo di complessità, ma limitano il grado di controllo creativo.
Midjourney si posiziona a un livello intermedio, permettendo un certo grado di personalizzazione. Con Midjourney, gli utenti possono influenzare più direttamente lo stile e il contenuto delle immagini generate anche grazie al numero di parametri utilizzabili per costruire il prompt che sta crescendo sempre più con l'evolversi della piattaforma. Per questo, pur mantenendo un'interfaccia relativamente semplice, è da seguire per il suo interessante sviluppo che lo pone nella fascia alta.
Ma è con Stable Diffusion che si arriva al massimo controllo possibile sull'immagine prodotta, anche grazie alla community Open Source che si è aggregata attorno al progetto e che ha creato un ecosistema di strumenti e interfacce che permettono un livello di personalizzazione senza precedenti.
Utilizzando un'interfaccia come Automatic1111 per Stable Diffusion, l'utente può manipolare una moltitudine di parametri, ciascuno dei quali influenza il risultato finale in modi spesso sottili ma significativi. Questa complessità permette un livello di controllo creativo che si avvicina a quello degli strumenti tradizionali di creazione digitale, pur mantenendo i vantaggi dell'AI generativa.
Per esempio, anche una scelta apparentemente banale come quella relativa alle dimensioni dell'immagine può produrre risultati diversi. Questo perché nel flusso di lavoro di Stable Diffusion ogni parametro è parte integrante del processo generativo, non un semplice aggiustamento in pre o post produzione; per cui cambiare il valore di un parametro significa influire sul processo nel suo insieme.
Tra i parametri più influenti troviamo la scelta del modello (checkpoint in inglese), che essenzialmente definisce la "personalità creativa" dell'AI con cui stiamo collaborando. La selezione di un modello piuttosto che un altro può portare a risultati radicalmente diversi a parità di prompt. Alcuni modelli possono eccellere in certi stili artistici, mentre altri potrebbero essere più adatti per determinati soggetti o tematiche.
Tra gli altri parametri determinanti, abbiamo la "CFG Scale" (Classifier Free Guidance Scale), che controlla il grado di libertà che l'utente vuole lasciare all'AI in relazione alla coerenza con il prompt; e il "Sampling Steps", che determina quanto a lungo l'AI "raffina" l'immagine. Manipolando questi e altri parametri, l'utente può esercitare un controllo fine sul processo creativo, guidando l'AI verso la realizzazione della propria visione artistica.
Spingendoci oltre, troviamo interfacce come ComfyUI che portano il concetto di controllo creativo a un nuovo livello. È un'interfaccia che permette all'utente di assemblare liberamente i "mattoncini" del processo creativo, come in un sofisticato gioco di costruzioni. Questo approccio non solo amplia le possibilità creative, ma trasforma l'intero processo in un atto di design del flusso di lavoro creativo stesso.
Con ComfyUI, l'utente può creare flussi di lavoro personalizzati, una specie di gioco con questi blocchi come se fossero dei mattoncini LEGO con cui costruire percorsi diversi ed ogni composizione di fatto è un insieme di scelte fatte dall'utente, combinando diversi modelli, tecniche di sampling, e persino integrando elementi di image processing tradizionale. Questo livello di controllo permette di creare pipelines creative uniche, adattate alle specifiche esigenze e visioni dell'artista.
Le possibilità creative si allargano a dismisura. Questo processo multi-step, completamente personalizzabile, offre un controllo creativo che va ben oltre la semplice generazione di immagini da prompt. E di fatto la customizzazione dei workflow resa possibile da questa interfaccia diventa un altro elemento che fa parte del processo creativo messo in atto dall'utente.
L'insieme dei blocchi si chiama appunto "workflow", perché rappresentano e permettono di eseguire un flusso di lavoro completo. Ottimi esempi di workflow sono quelli di Stefano Flore, uno sviluppatore italiano che ha sviluppato progetti molto interessanti https://stefanoflore.it/progetti/.

