By Matteo Petrani in Pensieri — 14 feb 2025

Gamberetti divini - N°004

Contenuti sintetici, bot, mangiate di dati e celesti crostacei.

Settimana poco “fisica” e molto “mentale”: innumerevoli ragionamenti sui dati, sull’ottimizzazione degli e-commerce e, ovviamente, pensieri strategici su come e perché vendere AI. Ma soprattutto, mille idee di SaaS da sviluppare.

Tutti in piedi, assieme! Inspirate, e al mio 3, a gran voce:

Ok, è andata, tornate a sedervi ora.

Lo so, lo so, è una piaga con la quale dobbiamo conviverci: i post scritti da un LLM promptato di fretta. Su LinkedIn li si sgama facilmente: le emoji all'inizio di ogni paragrafo, i cinque takeaways a fine post, il sensazionalismo per ogni minimo concetto, l'italiano didattico e la punteggiatura impeccabile. Ma, soprattutto, sono i punti interrogativi e l’uso impeccabile dei congiuntivi a farmi venire dei dubbi. Confessa: quando è stata l'ultima volta che li hai usati in un messaggio?

Uscendo dai nostri feed e guardando la big picture, i più consapevoli hanno già notato da qualche anno che i contenuti di qualità sono sotto paywall e che, al di fuori di essi, troviamo spesso polpette di contenuti sintetici o di altri, rivisitati per solleticare l'algoritmo di ranking e dei newsfeed.

BEEP – BOOP – BZZZT!

Ad oggi, il 57% dei contenuti online è generato dall’AI o da bot, i quali registrano circa il 50% del traffico totale. Di questi, oltre il 30% sono bad bot – siano essi server impiegati per scopi più o meno leciti oppure le farm di likes che titillano le nostre vanity metrics.

Una triste statistica di Statista

A marzo 2024 Google ha sbattuto i piedi: "“Non premieremo più i siti che scrivono per i motori di ricerca! Premiamo quelli con contenuti genuini, scritti da e per le persone!”. Di fatto, più della metà dei contenuti online è sintetica e, man mano che i modelli di GenAI diventano sempre più performanti, tanto più Turing si rivolterà nella tomba.

Ma come siamo arrivati fin qui? C'è una bellissima teoria cospiratoria, la Dead Internet Theory, che ci avvisa: i contenuti su Internet sono per lo più creati da bot e manipolati da algoritmi, al fine di controllare le persone e minimizzare quelli organici, creati dall’uomo. Non sapremo mai la verità, ma c'è anche un altro punto di vista interessante: siamo arrivati fin qui perché i modelli di AI hanno tremendamente fame di contenuti.

Tutti a tavola

Il menu è gustoso ma non li sazia. Di antipasto si serve un miso caldo di open data, a seguire un tortino di dati di terze parti, per secondo un filetto di UGC. In chiusura, il dolce per eccellenza: una bella meringata di 160 terabyte di contenuti coperti da copyright.

Chissà se hanno cercato l'ultimo proxy di LibGen su https://fmhy.net/

Se fosse chiamato in aula, non testimonierà contro neanche lo stesso Sam Altman, CEO di OpenAI, che più di una volta ha sollevato la necessità di accedere ai contenuti coperti da copyright per preservare la qualità del training.

Quindi, la cena è finita, ma la fame rimane: l'unica è cucinare ancora. Se mancano nuovi contenuti, la strada migliore è crearne di sintetici per continuare ad alimentare il training. I migliori ingegneri già lo sanno però: il collasso di questo circolo vizioso è immediato. Dato che i chatbot più noti, come ChatGPT o Gemini, sono addestrati anche su dati acquisiti tramite scraping del web, è chiaro che se la qualità dei contenuti presenti in rete peggiora – e quegli stessi contenuti diventano materiale per il training – le nozioni apprese ne risentiranno. D'altronde, chi vorrebbe mangiare del cibo già masticato da altri?

Slop: è il termine più usato per indicare contenuti di bassa qualità che allagano i server. Le varie piattaforme social cercano di mettersi al riparo come possono. Reddit con l'introduzione di API a pagamento e istituendo una task force per moderare i contenuti sintetici, oppure X che dichiara guerra ai bot decimandoli (ma non eliminandoli del tutto). Dall'altra c'è chi chiude un'occhio (Meta) perché alla fine parliamoci chiaro, shrimp Jesus fa scassare e aumenta il Time on Site a dismisura.

Un post virale che ha scatenato risate e critiche su Fb

Quindi, tirando le somme:

I modelli sono stati addestrati su tutto lo scibile umano;
Non essendo sufficiente, vengono creati nuovi contenuti sintetici;
Noi stessi generiamo contenuti sintetici, quasi sempre di scarsissima qualità;
Tutto questo viene rimasticato dai modelli, in loop;
La qualità dell'output non può che peggiorare nel tempo.

Come possiamo, dunque, aprire una nuova scheda su Chrome, guardarci allo specchio e prometterci di non alimentare questa macchina? Come possiamo salvaguardare il prossimo dall'ennesimo “scrivi un post per LinkedIn che celebri il mio traguardo, tono assertivo, hook all'inizio e CTA alla fine”?

Booh! Vi posso dire però i miei "5 trucchi per differenziarmi e vincere la gara dell'attenzione nel 2025":

Scrivere, scrivere e scrivere con la mia testa: ChatGPT mi aiuta a trovare reference, a fare approfondimenti su alcuni temi, a fare proofreading. È un second brain, ma non scrive mai al posto mio.
Essere me stesso: per quanto abbia provato a creare un mio clone digitale, non sono mai riuscito a fargli generare del testo che sembri veramente mio. La struttura delle frasi, il tono, l'ironia... c'è sempre qualquadra che non cosa.
Portare un punto di vista autentico: Nell’era in cui tutti possono fare tutto, l’unica cosa irreplicabile è il modo in cui vediamo il mondo, come stiamo, cosa sentiamo. Raccontarlo, con parsimonia, è un modo gentile per dire “io esisto”.
Parlare poco: il precetto che seguo è quello della retta parola del Buddhismo, ovvero che la giusta parola deve essere vera, gentile e utile.
Usare con cura il tempo: mio, ma soprattutto degli altri. Ne parlo un po' nell'ultimo post che ti lascio qui sotto.

Anti-slop

Se non vogliamo perpetuare questo genera-copia-incolla furioso, indossate anche voi il badge anti-slop e scrivete e parlate nel modo più autentico possibile. Sarà importante per voi e d'impatto per chi vi legge o ascolta. Sarà un modo gentile per differenziarci dal sintetico e tenere viva una debole ma genuina fiamma alimentata da noi umani.

Link belli

Il blog di Sam Altman: simile a quello di Paul Graham, con un punto di vista sull'AI e AGI
Duolingo Handbook: ve li ricordate, 10-15 anni fa, gli handbooks aziendali, ricchi di spunti su cultura e processi? Duolingo riporta a galla il trend dopo aver pubblicato il suo!

BEEP – BOOP – BZZZT!

Tutti a tavola

Anti-slop

Salta a bordo

Subscribe to Sottocoperta (Matteo Petrani)