Ciao! Questa settimana due argomenti importanti, uno tecnico e uno etico ma anche molto pratico. Non dico altro perché per te ho preparato molto materiale da leggere e, spero, ancora di più sul quale riflettere. Buona lettura.
Google e lo scraping dei contenuti (altrui)
Come riportato da questo articolo del Search Engine Journal un paio di settimane fa il buon Cyrus Shepard di Moz ha pizzicato Google a servire servire un simpatico snippet dove il motore di ricerca aveva di fatto preso le informazioni dal sito di un publisher, le aveva pubblicate nelle SERP e non aveva in nessun modo segnalato da chi avesse preso tali informazioni, nessun link insomma. Da questo tweet è scaturita una discussione dove si sono spese parole pesanti e interessanti:
- Ian Laurie ha detto che “Google sta diventando un publisher. Se tu stesso sei un publisher il mio consiglio è di diversificare in un franchise di fastfood”;
- Rand Fishkin ha replicato dicendo “Publisher è una conto. Scraper di altri publisher che, in modo esclusivo, può ignorare le leggi sul copyright e giocare al dilemma del prigioniero contro chiunque li bloccherebbero è un altro.”;
- Ian Laurie rilancia “Non voglio dire che sia ok che diventino un publisher. Anzi è terribile perché controllano completamente l’accesso ai contenuti. Lo fanno senza affrontare nessun costo aggiuntivo (perché hanno in mano la distribuzione)” ;
Ecco lo snippet al centro della discussione:
Qui effettivamente siamo in un contesto diverso dal servire “informazioni fattuali” quali possono essere l’età di una persona famosa, la traduzione di una parola o il valore del cambio euro-dollaro. Qui si parla di informazioni dedotte o comunque derivate da altre da esseri umani. Prima però di dire la mia ti riporto la risposta di Danny Sullivan:
“Visto che sono stato interpellato sulla questione vorrei dire un paio di cose. La cosa più importante è che il futuro della Google Search è quello di continuare a supportare l’ecosistema. Non prosperiamo e gli utenti non prosperano se l’ecosistema stesso non prospera. Il supporto all’ecosistema viene costantemente discusso nei meeting (interni) ai quali partecipo. Viene sempre fuori. E’ una delle principali preoccupazioni di tutti quelli che sono coinvolti nella Search. E’ stato considerato l’impatto sull’ecosistema di ogni feature che vedete. La speranza è quella, in generale, che come Google cresce, così cresce l’ecosistema. Per fare in modo che tutti crescano la Search deve continuare ad evolversi. Anche se credo che i SEO abbiano ragione nell’esprimere le loro preoccupazioni riguardo i nuovi formati, penso anche che dovrebbero riconoscere che questi portano spesso con sè nuove opportunità (…)” La risposta qui continua con un’arrampicata sugli specchi riguardo lo specifico caso che, se vi interessa, vi invito a leggere direttamente su Twitter. Vorrei farti leggere invece la parte finale, a mio avviso ben più interessante. Danny Sullivan dice: “La Search smette di essere tale se consulti e scrolli i risultati in modo orizzontale invece che verticale? (si riferisce allo snippet). La Search rimane tale sono le appare e funziona come fosse il 1998? Si è evoluta da quel periodo e continuerà ad evolversi.“
Conclude Shepard con una risposta che per così dire “diretta” “Speriamo lo facciano (evolversi) anche le leggi sul copyright 😉“. Ouch.
Detto questo… ci siamo giocati Danny Sullivan. Purtroppo non ha portato quell’aria nuova che tanto serviva alla comunicazione di Google. Si continuerà ancora con sottointesi, riferimenti a non meglio precisati “meeting” o comunque a fatti molto vaghi, ovvietà e un pizzico di malizia, temo.
Superati gli aspetti comunicativi vorrei soffermarmi sul concetto di “ecosistema Search” tanto caro a Danny e, apparentemente, a chi lavora sulla Search a Google. A livello molto base l’ecosistema è formato da:
- i contenuti, e quindi dai publisher che li creano (copiano/traducono), li pubblicano e vogliono distribuirli;
- dall’indice/classifica dei contenuti, e quindi Google che attraverso la sua tecnologia li distribuisce;
- da chi consulta questi contenuti tramite l’indice/classifica: gli utenti di Google attraverso le loro device li fruiscono;
Parlando sempre a livello base Google ha bisogno di essere il migliore indice/classifica perché ha bisogno di fatturare tramite i click sulle ads in SERP. E quindi è vero che il suo focus è la qualità delle SERP per i suoi utenti, naturalmente in un compromesso con l’efficacia delle ADS. Questo è subito chiaro a chi naviga da qualche anno le SERP: nel tempo i contenuti a pagamento sono diventati, al contrario di quello che per altro predica quando le ads le deve pagare ad altri con AdSense, sempre più mimetizzati con i risultati organici. Questo NON migliora la qualità delle SERP ma alza il fatturato e, immagino, non fa scappare TROPPI utenti. Per questo il compromesso, per Google e gli utenti, funziona. Le SERP devono rimanere abbastanza leggibili e utili per continuare a far si che gli utenti continuino ad usare Google invece che Bing e gli altri competitors. Per i publisher però questo compromesso non funziona.
Ai publisher non piace neanche il concetto o anzi l’implementazione della “risposta in SERP” (basta con questo marketing jargon del motore di risposta per favore) che Google, per accontentare gli utenti e averne ancora di più pronti a cliccare sulle SERP, sta implementando con i rich results che promuovono la calvizie e tolgono il sonno ai signori publisher.
Perché, anche se sono tanti e sono così fondamentali per Google visto che (per ora), come dice Danny Sullivan, l’ecosistema non si sostiene e non “prospera” senza che prosperino i suoi elementi fondanti, questi publisher non hanno e non hanno avuto la forza di cambiare le cose?
Il fatto è che nel sottobosco dei publisher si trovano, semplificando molto, creature dalle caratteristiche più disparate:
- Chi gestisce un sito di news;
- Chi gestisce un magazine/blog;
- Chi gestisce un sito verticale fatto di un grande volume di informazioni servite in piccole porzioni, come un dizionario online, etadelvip.com (non so se esiste) etc. etc.;
- Chi gestisce una sito basato sullo user generated content, ad esempio un forum, che sono ancora per Google fonti di informazioni autorevoli;
- Chi gestisce un sito che vende servizi/prodotti (perché le informazioni vengono prese anche da questi siti, che di fatto “pubblicano”);
Ora, questi publisher eterogenei hanno interessi diversi, reach diverse, assetti societari diversi, di fatto hanno diversità che li vedono disgiunti e impotenti sotto la pressione di un colosso come Google. Personalmente penso che il grande problema sia questo. Di fatto delegano, o anzi deleghiamo visto che chi leggerà questa email è di fatto preso in causa, il formulare delle risposte al problema ad altre figure, quali loStato o addirittura l’Europa, che però il 99% delle volte hanno dimostrato di non avere gli strumenti per CAPIRE l’ecosistema, figuriamoci equilibrarlo. Il problema, cara lettrice e caro lettore, è assolutamente l’equilibrio.
Da una parte penso che debba partire un forte processo di evoluzione che marci un po’ contro a Google dentro ogni publisher: diversificare, trovare altre strade, creare propri assett tecnologici (ho fatto un’intervista che uscirà prossimamente in un podcast dedicato proprio a queste cose, poi ve la giro) e tutte quelle cose che avete sentito dire dopo gli update impattanti come quello di Agosto. Uno dei problemi che più riscontro nel business su internet è proprio la mancanza di una visione verso il futuro, dove non ci si limita a sfregarsi le mani sulle conversioni di oggi mentre Google per sua bontà gira del traffico ma si cerca di capire come non dipendere da nessuno se non dal proprio buon lavoro. Capisco bene perché sia così: tra le tantissime cose da fare l’impellenza è quella di svolgere le attività che ci si parano davanti piuttosto che pensare a quelle oltre l’orizzonte. Ma è molto pericoloso.
Dall’altra penso che si potrebbero chiarire le cose in maniera più diretta: i publisher di fatto hanno il potere. Se decidessimo tutti insieme di chiudere i nostri siti con robots.txt per un mese a Google a Mountain View capirebbero molto in fretta il messagio, ve lo assicuro. Bisognerebbe tirare tutti la cinghia, perché si perderebbero sicuramente dei soldi, e perseverare, causare una reazione.
La realtà però è che c’è chi con Google convive senza preoccuparsi troppo, muovendo utenti e soldi in grandi quantità e quindi contento dello status quo. Una mobilitazione in questo senso verrebbe fatta solamente da chi, probabilmente, conta meno di altri, me compreso e non avrebbe lo stesso mordente.
Il problema vero è che nel compromesso tra Google e i suoi utenti non c’è molto spazio per i publisher e io non penso sia cosi remota la possibilità che una qualche tecnologia prenda il posto dei publisher stessi. Quello che manca a Google è di avvicinarsi alla fonte delle informazioni, ma chissà che con tutti questi bei microfoni, pagati profumatamente, attaccati a smartphone e assistenti vocali non inizi a farsi una sua idea e a esprimerla in un bel sito sui “miglior ristoranti” o sulle “ricette per i tortelloni”…
Per ora, il modo migliore per difendersi dallo scraping di Google è, secondo me, di rendere così uniche le informazioni del vostro sito che sia difficile per lui farla franca o appropriarsene senza conseguenze. Le uniche informazioni che non possono sopravvivere senza “una firma”, perché il problema di Shepard è l’omissione di un identificatore della sorgente del contenuto, sono quelle pregne di personalità, unicità e di una “voce”.
Questo da una parte ci allontana da Google, che vuole standardizzare attraverso lo studio dei comportamenti relativi a specifiche query, ma forse è la cosa migliore da fare. C’è molto su cui riflettere.
Leggi la discussione sul Search Engine Journal
Chrome, Javascript e priorità di caricamento
E’ molto tecnico ma vorrei portare alla tua attenzione questo articolo dove si parla delle priorità nel caricamento di Javascript in Chrome scritto da Addy Osmani, un Engineering Manager di Google che lavora, appunto, su Chrome. E’ molto interessante perché chiarisce molte cose tecniche in semplice e diretto. La colonna “Where should this be used” è oro puro. Questi chiarimenti servono alla community: ad esempio molte guide in giro per la rete tendono a consigliare semplicemente di “caricare gli script in modo asincrono per non bloccare il rendering” (lo fanno anche tanti plugin su WordPress purtroppo) appiattendo un discorso molto, molto più complesso.
Di fatto, come puoi leggere su questa pagina e vedere nella tabella che ho condiviso con il primo link, “script async” blocca il rendering, perché il parser dell’HTML si blocca per eseguire lo script appena lo stesso è stato scaricato (cosa che genera problemi anche con l’ordine del caricamento), e non è un sostituto con la stessa funzione di “script defer” che invece ferma l’esecuzione fino a che non viene incontrato il tag dal parser dell’HTML. Si tende a utilizzare script async per caricare quelli meno importanti ma la funzione è stata studiata per fare l’esatto contrario, ovvero eseguire il prima possibile, scaricando parallelamente, gli script più importanti. Non è un caso che gli script relativi alle pubblicità display vengano caricati in modo asincrono, perché prima vengono eseguiti prima l’utente scoprirà le pubblicità ed eventualmente ci cliccherà sopra.
Se vuoi farti un’idea di come GoogleBot possa (quando ne ha voglia, perché a volte per non sprecare risorse inizia a giudicare una pagina senza fare il render del javascript) interpretare il javascript recupera la versione 41 di Chromium, quella utilizzata da Googlebot secondo Google stessa.
Se lo chiedi a me, si, queste sono cose ascrivibili al “fare SEO”, perché la “o” di “optimization” passa anche per queste cose. Per chiarezza conosco bravissimi SEO che probabilmente non padroneggiano queste conoscenze (e neanche io sono sicuramente uno sviluppatore o un sistemista, per carità) ma la figura che “sa quel che serve di tutto” non è mitologia e non è impossibile divenirla, anzi. Se ci si “specializza” sulle analisi come ho voluto fare io negli ultimi due anni è un buon traguardo da inseguire professionalmente. Naturalmente dico queste cose per ispirarti, non per bullarmi o offenderti. Personalmente mi capita di sentire o leggere di persone che, con le loro competenze e la loro sicurezza, che mi fanno sentire “in difetto”, cosa che assolutamente mi sprona a migliorarmi, spero che queste mie affermazioni facciano lo stesso con te, che sei sicuramente già fichissimo 🙂 ma non c’è probabilmente limite alla crescita personale!
Per tornare a noi e concludere, la tabella citata nell’articolo è davveromolto interessante e anche i link verso gli approfondimenti sono tutti da leggere:
- First paint and first contentful paint e First meaningful paint and hero element timing (documentazione Google);
- Scheduling Scripts Intuitively and Performantly (documento condiviso e, mi pare di capire, corale);
Nota: si fa riferimento a Chrome ma su più livelli queste sono nozioni che giovano a tutto tondo nel sapere conoscere/interpretare/ottimizzare per browser basati su Gecko (Firefox) non solo su Webkit (Chrome e Safari)
Leggi l’articolo sulle priorità di caricamento di Javascript in Chrome
Altri articoli interessanti
Ecco una carrelata di articoli interessanti che non ho voluto/potuto approfondire e qualche curiosità che vorrei segnalarti:
- W3C ha ufficialmente approvato come standard il suo WebAuthn, una API per l’autenticazione sul web da tempo già supportata dai browser più diffusi. Si tratta di un sistema passwordless nel quale l’utente utilizza lettori di impronte digitali, fotografie, cellulari o le proprie chiavi FIDO (chiavi USB con hardware di autenticazione). Di fatto le credenziali, in qualunque loro forma, non arrivano mai ad essere registrate sul server andando a rendere impossibile (credo) i tentativi di pishing o altri attacchi man in the middle. Se da una parte mi viene sempre da storcere il naso quando vedo accentrare e concentrare questioni legate alla sicurezza e alla privacy penso che sia qualcosa di inevitabile visto l’affiorare di questi discorsi legati alla sicurezza su internet tra il grande pubblico dei non-tech (com’è giusto che sia). In giro per la rete si trovano già molte critiche al sistema ma non essendo un ingegnere per la sicurezza mi limito a consigliarti di informarti in modo autonomo e rifletterci sopra;
- Segnalato da Barry Schwartz, questo report di Sucuri dice che il 50% degli hacking perpetrati hanno come obiettivo la SEO, il terzo fenomeno più diffuso dopo le backdoor e il malware. Gli attacchi di SEO spam (che altro non sono che attività di link building illegali) sono subdoli perché difficili da rilevare: l’attaccante vuole fare soldi sfruttando il posizionamento della vittima per vendere viagra, Hogan o altre amenità. Una buona soluzione, segnalata dal buon Barry, è propriol’inclusione del sito in Search Console: ci penserà Google ad avvertirti (e a punirti, solitamente) per l’avvenuto attacco al tuo sito. Ancora meglio è leggere i log periodicamente per vedere che non ci siano movimenti strani;
- Secondo John Mueller i video devono essere di supporto al contenuto e non rappresentare l’elemento centrale di una pagina web. Io però non lo ascolterò (mai prendere per il vangelo le parole di nessuno se non quelle della mamma e di Lucio Battisti) e prossimamente pubblicherò una cosa parzialmente video-centrica perché John non me la racconta giusta! Sarà mica che vuole che la gente i video li guardi su YouTube? Scherzi a parte sarà una bella sorpresa per la community SEO (o almeno credo).
- Per altro la precedente notizia cozza “un pochino” con l’annuncio dell’apparente inclusione dell’indexing dei podcast tramite la loro trascrizione nell’app dedicata (ai podcast) su Android. Si tratta di una supposizione (forse speculazione) fatta su di un tweet del responsabile (se ho ben capito) della suddetta app ma penso sia una lettura verosimile. Per altro si trattam rullo di tamburi, di vera e propria Audio Search. Non ricerca vocale ma ricerca nell’audio. E anche qui torna il compromesso e il conflitto d’interessi, sotto tanti punti di vista, ma oggi ho parlato anche troppo. Comunque sia direi che il futuro si prospetta quantomeno “frizzante”, che ne dici?
- E’ uscita la versione 11 di Screaming Frog, la quale testa direttamente nel tool i dati strutturati, fico! Molto bello anche l’export selettivo dei dati, utile ad esempio in consulenza o per isolare dei dati senza dover scaricarsi sempre l’intero corpus. Questi ragazzi lavorando davvero molto bene;
Il pensiero della settimana
Ancora una volta l’editor di Sendinblue mi ha tradito facendo finta di salvare… Stavolta però ho intuito subito il problema e ho perso “solo” mezz’ora di lavoro, mannaggia a loro (fa anche rima)! Questa volta però non mi sono fatto scoraggiare perché gli argomenti erano troppo importanti per non essere trattati adeguatamente. Spero davvero che ti sia piaciuta e, forse più del solito, mi piacerebbe sapere cosa ne pensi!
Ti aspetto la settimana prossima e nel mentre ti auguro una buona settimana e una buona giornata,