Buongiorno cari lettori di Tecnogalaxy, oggi vi andremo a parlare di uno strumento di scraping Ai che ha causato diversi problemi.

Img2dataset è uno strumento gratuito condiviso su GitHub che consente agli utenti di scaricare e ridimensionare automaticamente un elenco di URL. Il risultato è un set di dati di immagini, del tipo che addestra modelli di intelligenza artificiale che generano immagini come DALL-E di Open AI, il modello di stable diffusion open source e Imagen di Google.

Beaumont è anche un collaboratore open source di LAION-5B, uno dei più grandi set di dati di immagini al mondo. Esso contiene più di 5 miliardi di immagini ed è utilizzato da Imagen e Stable Diffusion.

Img2dataset tenterà di eseguire lo scraping delle immagini da qualsiasi sito a meno che i proprietari del sito non aggiungano intestazioni https come “X-Robots-Tag: noai” e “X-Robots-Tag: noindex“. Ciò significa che l’onere è sui proprietari del sito, molti dei quali probabilmente non sanno nemmeno che esiste img2dataset.

Terence Eden ha detto a Motherboard in una e-mail di aver notato che img2dataset stava effettuando lo scraping del suo sito. Il sito in questione era OpenBenches, che invita gli utenti a caricare immagini e posizioni di panchine commemorative da tutto il mondo. Attualmente, OpenBenches ha mappato 27.629 panchine e ospita 250 GB di foto.

“l’ho notato perché ho ricevuto un avviso dal mio host che il sito era oggetto di un attacco prolungato”, ha detto Eden. “Ho dovuto pagare per aumentare la scalabilità del mio server. Ho dovuto pagare un extra per il traffico di esportazione e ho trascorso parte del mio tempo a bloccare gli abusi causati da questo specifico bot.”

Beaumont ha anche difeso img2dataset confrontandolo con il modo in cui Google indicizza tutti i siti Web online per alimentare il suo motore di ricerca, a vantaggio di chiunque desideri effettuare ricerche in Internet.

“Traggo vantaggio direttamente dai motori di ricerca in quanto indirizzano traffico utile verso di me,” “Ma, la cosa ancora più importante, è che il bot di Google è rispettoso e non martella di richieste il sito. E la maggior parte dei bot rispetta la direttiva robots.txt. Sembra essere deliberatamente impostato per ignorare le direttive che i proprietari di siti Web hanno in atto. E, francamente, non porta alcun beneficio diretto. Un file “robots.txt” indica ai crawler dei motori di ricerca come Google a quale parte di un sito può accedere il crawler per evitare che sovraccarichi il sito con le richieste.

La recente popolarità degli strumenti di intelligenza artificiale solleva interrogativi sul consenso e sulla proprietà che sono vecchi quanto Internet. Strumenti come ChatGPT e Stable Diffusion funzionano solo perché hanno già estratto da vaste aree di Internet. Articoli, post di forum, opere d’arte, fotografie ecc. che gli utenti hanno condiviso online con amici o fan senza nemmeno avere la possibilità di rinunciare. Gran parte di questi dati sono antecedenti all’esistenza di Open AI, Stability AI o del set di dati LAION.

I singoli utenti di Internet come Eden hanno posto diverse domande sulla legittima del funzionamento per tutto il tempo in cui l’IA è lentamente aumentata di popolarità. Ma fino ad ora e per altro tempo non sembrerà necessario reagire e intervenire.

“Migliaia di strumenti vengono rilasciati ogni giorno”, ha affermato Eden. Questi robot costano alle persone tempo e denaro senza offrire alcun vantaggio tangibile… Il consenso è il fondamento dell’etica soprattutto su internet. I set di dati costruiti su dati ottenuti non consensualmente presentano un chiaro rischio per i proprietari e gli utenti di quel modello.

Questo è tutto per ora riguardo una critica degli strumenti di scraping AI che vengono utilizzati su migliaia di siti ogni giorno.

Leggi anche:

Ti è stato di aiuto questo articolo? Aiuta questo sito a mantenere le varie spese con una donazione a piacere cliccando su questo link. Grazie!

Seguici anche su Telegram cliccando su questo link per rimanere sempre aggiornato sugli ultimi articoli e le novità riguardanti il sito.

Se vuoi fare domande o parlare di tecnologia puoi entrare nel nostro gruppo Telegram cliccando su questo link.

© Tecnogalaxy.it - Vietato riprodurre il contenuto di questo articolo.