Poniedziałek, 14 lipca 2025
CzasopismoBiblioteka Analiz
Tekst pochodzi z numeruBiblioteka Analiz nr 645 (13/2025)

Wydawnictwa stoją dziś przed wieloma wyzwaniami związanymi z weryfikacją autentyczności nadsyłanych tekstów. Jednym z największych zagrożeń ostatnich lat stało się masowe stosowanie modeli generatywnej sztucznej inteligencji, takich jak ChatGPT, do tworzenia lub „ulepszania” prac naukowych. Choć narzędzia te mogą wspierać twórczość, coraz częściej wykorzystywane są niezgodnie z zasadami etyki publikacyjnej – do generowania tekstów bez ujawnienia tego faktu. Zjawisko wykorzystania AI w publikacjach naukowych nie jest marginalne. Według publikacji „Applied Intelligence” ChatGPT został wskazany w około 10 proc. artykułów opublikowanych w każdym z analizowanych czasopism1, co obrazuje, że autorzy z różnych dziedzin szybko zaadaptowali narzędzia AI.

Ważnym i niepokojącym zjawiskiem w świecie naukowym są tzw. paper mills – nieformalne (lub wręcz przestępcze) organizacje, które na zlecenie przygotowują artykuły naukowe, często na masową skalę. Działają one jak fabryki treści: oferują klientom gotowe publikacje, możliwość przypisania sobie współautorstwa lub sprzedaż tekstów do konkretnych czasopism. Coraz częściej korzystają przy tym z generatywnej sztucznej inteligencji, aby szybko tworzyć pozornie oryginalne i formalnie poprawne teksty.

Wydawnictwa naukowe są jednym z głównych celów tego procederu – zwłaszcza te, które publikują artykuły open access i nie wymagają spełnienia rygorystycznych warunków publikacji. Paper mills wykorzystują fakt, że wiele redakcji opiera swoją kontrolę wyłącznie na analizie podobieństw do innych źródeł. W tej sytuacji generowane przez AI artykuły z powodzeniem przechodzą klasyczną weryfikację oryginalności treści, ponieważ tradycyjne systemy antyplagiatowe skupiają się na wykrywaniu podobieństw między tekstem analizowanym a źródłami dostępnymi w bazach danych (publikacjach, zasobach internetu).

Tymczasem tekst wygenerowany przez AI może być oryginalny – może nie zawierać zapożyczeń, powstając na bazie statystycznych przewidywań językowych. Dopiero analiza stylometryczna i językowa – czyli detekcja sztucznej inteligencji może zidentyfikować i wskazać argumenty za tym, że tekst nie powstał w wyniku indywidualnej pracy autora, lecz został stworzony przez model językowy. Dla redaktorów naukowych, którzy odpowiadają za jakość i oryginalność publikacji, taka informacja ma ogromne znaczenie – zarówno w kontekście etycznym, jak i prawnym.

Według raportu „Nature” z 2024 roku, aż ponad 10 tys. podejrzanych artykułów naukowych opublikowanych w ostatnich latach w czasopismach azjatyckich i wschodnioeuropejskich mogło pochodzić z paper mills2. Wiele z nich zawierało sfałszowane dane, losowe grafy i wykresy, a teksty były generowane lub redagowane przez AI. W odpowiedzi na to detekcja AI, zwłaszcza w połączeniu z analizą metadanych (np. powtarzalność autorów, afiliacje, szybkość przesyłania wielu tekstów), zaczyna być stosowana jako jeden z kluczowych elementów walki z tym procederem.

Analiza przeprowadzona przez Uniwersytet Stanforda wykazała, że modele detekcji AI były w stanie poprawnie zidentyfikować wygenerowane fragmenty w 9 na 10 przypadków, o ile analiza dotyczyła dłuższych tekstów naukowych3.

Detekcja AI staje się więc przełomowym narzędziem, ponieważ analizując styl i strukturę językową, może wskazać, że tekst – mimo braku podobieństw – wykazuje cechy charakterystyczne dla treści wygenerowanej maszynowo. Dodatkowo, wiele raportów z detekcji AI pozwala zidentyfikować, które fragmenty mogły zostać stworzone przez modele językowe, a które są prawdopodobnie dziełem człowieka, co może być kluczowe przy ocenie jakości wkładu poszczególnych autorów.

Przykładem jest jedno z renomowanych europejskich wydawnictw, współpracujące z międzynarodową bazą indeksującą, które dzięki detekcji AI wykryło, że kilku autorów z tej samej instytucji zgłosiło w krótkim czasie kilkanaście tekstów o niemal identycznej strukturze,  stylu i układzie graficznym. Choć każdy z artykułów był „oryginalny” w sensie braku podobieństw, raporty wykazały, że przeważająca część treści w każdym przypadku nosiła cechy typowe dla tekstów generowanych przez ChatGPT lub Gemini. Wydawnictwo powiadomiło redakcję czasopisma, po przeprowadzeniu wewnętrznego audytu wszystkie teksty zostały wycofane, a instytucja naukowa objęta dodatkowym monitoringiem.

Podsumowując, wdrożenie detekcji AI w systemie antyplagiatowym niesie za sobą szereg korzyści. Przede wszystkim zwiększa wiarygodność wydawnictwa, zapewniając recenzentów i czytelników, że publikowane treści są autentyczne. Ponadto wspiera proces recenzyjny, gdyż redaktorzy i recenzenci otrzymują dodatkowe narzędzie do oceny jakości pracy. Służy prewencji nadużyć – sama świadomość, że teksty są analizowane pod kątem generowania przez AI, zniechęca autorów do nieujawnionego korzystania, ale również zapewnia wydawnictwu dostosowanie do wymagań międzynarodowych baz – Scopus czy Web of Science zaczynają wymagać transparentności w zakresie korzystania z AI. W czasach, gdy technologia AI dynamicznie zmienia krajobraz naukowej komunikacji, wydawnictwa muszą równie dynamicznie reagować na nowe wyzwania. Detekcja AI w systemach antyplagiatowych to nie luksus, ale konieczność, jeśli zależy nam na zachowaniu standardów etycznych, wiarygodności publikacji i ochronie dorobku naukowego.

1 Picazo-Sanchez, P., Ortiz-Martin, L. (2024) „Analysing the impact of ChatGPT in research. Appl Intell”, https:// doi.org/10.1007/s10489-024-05298-0
2 Van Noorden, R. (2023), „More than 10,000 research papers were retracted in 2023 – a new record”, „Nature”, www.nature.com/articles/d41586-023- 03974-8
3 Cell Press (2023), „AI-generated academic science writing can be identified with over 99% accuracy”, „ScienceDaily”, www.sciencedaily.com/ releases/2023/06/230607124132.htm

(s. 15)

Autor: Ewelina Kochanowska