Modele językowe, takie jak GPT-3 muszą być zasilane dużą ilością tekstu, aby nauczyć się z niego wzorców, dzięki którym wykazują swoją fenomenalną „wiedzą”. Do trenowania złożonych modeli LLM ich boty sięgają po dostępne źródła tekstów. W przypadku ChatGPT, GPT-3, GPT-3.5 i GPT-4 firmy OpenAI jest to problematyczne, ponieważ są to produkty komercyjne, pobierające pieniądze za korzystanie ze swoich usług.
Obecnie wydawcy znajdują się w sytuacji, kiedy scrapowanie i przetwarzanie ich tekstów chronionych prawem autorskim, jest zupełnie legalne. Jednak powstały w ten sposób tekst sam w sobie nie podlega prawu autorskiemu, ponieważ maszyna nie może być autorem i dlatego należy go traktować jako należący do domeny publicznej.
„Legalnie dostępne” są utwory, do których dostęp jest legalnie dozwolony dla użytkownika, czyli osoby dokonującej scrapingu. Dotyczy to na przykład utworów swobodnie dostępnych w Internecie, czyli wszystkich treści znajdujących się na ogólnie dostępnych stronach internetowych.
W praktyce oznacza to, że należy zablokować wszystkie boty za pomocą pliku robots.txt, a następnie wyraźnie zezwolić na działanie pożądanych crawlerów, takich jak na przykład GoogleBot. W przeciwnym razie jest to najwyraźniej równoznaczne z wyrażeniem zgody na eksploatację swoich zasobów contentu za pomocą scrapingu treści!
Jak zablokować wszystkie boty i crawlery (oprócz Google, bing i innych)
Za pomocą pliku robots.txt można określić, które roboty mają dostęp do jakich plików na twojej stronie internetowej. Plik robots.txt musi zawsze znajdować się w katalogu głównym twojej strony internetowej i mieć nazwę brzmiącą dokładnie „robots.txt”.
Aby nie udostępniać zawartości strony internetowej do scrapingu danych, należy najpierw zablokować całą zawartość dla wszystkich robotów, a następnie umożliwić „dobrym botom”, takim jak Googlebot i Bingbot, ponowny dostęp.
Twój plik robots.txt może wyglądać na przykład tak:
# Block all Crawler
User-agent: *
Disallow: /
# Allow all for Googlebot
User-agent: Googlebot
Allow: /
# Allow all for Bingbot
User-agent: Bingbot
Allow: /
Należy zwrócić uwagę, że po każdym bloku oświadczeń Allow lub Disallow zawsze następuje pusta linia. Dopiero po niej można zająć się nowym identyfikatorem User-agenta!
ChatGPT ma dostęp do Internetu!
Do ChatGPT został niedawno dodany nowy plugin, który umożliwia mu przeglądanie Internetu. O tę funkcję prosiło wielu użytkowników, ponieważ obecny model zawiera dane tylko do 2021 roku. Plugin jest obecnie oznaczony jako wersja alfa, co oznacza, że może jeszcze zawierać błędy i jest dostępny tylko dla nielicznych użytkowników.
Na szczęście tę nową wtyczkę ChatGPT, służąca do do przeglądania internetu można zablokować, aby w ten sposób uniemożliwić użytkownikom tłumaczenie, parafrazowanie lub inne wykorzystanie tekstów z twojej własnej strony internetowej. Plugin ChatGPT używa tzw. User-Agent-Token o nazwie „ChatGPT-User” i musi również przestrzegać instrukcji zawartych w robots.txt. Ten User-Agent-Token jest używany tylko do bezpośrednich działań w ramach działań danego użytkownika ChatGPT, a nie do automatycznego indeksowania twoich treści.
Plugin ChatGPT może być zablokowany za pomocą następującej instrukcji w pliku robots.txt:
# Block ChatGPT-Users from accessing via browsing plugin
User-agent: ChatGPT-User
Disallow: /