AI4LAM – A tudományos cikkek chatbotok által generált összefoglalásainak értékelése 1/3

Beküldte bebiak.magdolna - 2026. április 08. - 09:00

Tekintettel arra, hogy egyre nagyobb az érdeklődés a mesterséges intelligencia (MI) eszközök összefoglalás céljára történő felhasználása iránt, ugyanakkor bizonytalanság övezi, hogy a számos rendelkezésre álló MI-modell közül melyik a legalkalmasabb erre a feladatra, az AI4LAM (Artificial Intelligence for Libraries, Archives & Museums) Értékelési Munkacsoport (Evaluation Working Group) ajánlásokat kívánt kidolgozni a kutatók számára arról, hogy mely modellek alkalmasak kutatási publikációk összefoglalására. A munkacsoport tagjai között van egy főiskolai könyvtáros, egyetemi technológusok, egy közmédia-levéltáros és egy egyetemi posztdoktori kutató, mindannyian az Egyesült Államokból. A munkacsoport tagjai hét MI nyelvi modellt választottak ki a kutatási cikkek összefoglalására, majd manuálisan értékelték a modellek összefoglalóit a cikkek eredeti absztraktjaihoz viszonyítva. Az értékeléseket 2025 májusától augusztusáig végezték, a modellek 2025 elejétől álltak a munkacsoport tagjainak rendelkezésére. Az értékelési pontszámok modell és cikk szerint is észrevehető különbségeket mutattak az összefoglalók átlagos minőségében. Átlagosan a ChatGPT 4 Turbo és a Microsoft Copilot Chat (amely a GPT-4-et használja) rendelkezett a legmagasabb minőségű összefoglalókkal a munkacsoport pontozási módszere szerint.

Az értékelési folyamat során olyan nagyobb kihívások és nyitott kérdések merültek fel a generatív mesterséges intelligencia modellek kimeneteinek értékelésével kapcsolatban, amelyek véleményük szerint túlmutatnak az összefoglalás alkalmazási esetein. Ezeket egy háromrészes blogsorozatban osztották meg, abban a reményben, hogy ezzel vitát indítanak el és visszajelzéseket kapnak az érdeklődő olvasóktól! Ez az első bejegyzés bemutatja, mit csináltak és miért. A második bejegyzés összefoglalja az MI által generált összefoglalók értékelésének kvantitatív eredményeit. A harmadik bejegyzés összefoglalja az MI által generált összefoglalók értékelési folyamatának kvalitatív elemzését.

Először öt publikált, lektorált (peer-reviewed) cikket választottak ki különböző tudományágakból:

„Investigating New Drugs from Marine Seaweed Metabolites for Cervical Cancer Therapy by Molecular Dynamic Modeling Approach” (Islam, Ahmed, Mahfuj és mtsai., 2025)

„PaperBench: Evaluating AI’s Ability to Replicate AI Research” (Starace és mtsai., 2025)

„‘A Womb of My Own’”: Women’s Bodies and Medicine in Early Modern England” (Black, 2025)

„Strong Social Anti-Reductionism Reexamined” (Matsumoto, 2025)

„The Impact of Large Language Models on Computer Science Student Writing” (Zdravkova és Ilijoski, 2025)

Ezeket a nyílt hozzáférésű (open access) cikkeket úgy választották ki, hogy különböző tudományágakat fedjenek le: orvostudomány, számítástechnika, történelem, filozófia és oktatás. Annak biztosítása érdekében, hogy az általuk választott MI-modellek képzési adataiban biztosan ne szerepeljen egyik cikk sem (ami azt jelentené, hogy hozzáfértek a cikkek absztraktjaihoz), olyan cikkeket választottak, amelyek a modellek betanítása és bevezetése után jelentek meg. A cikkek hossza 16 és 30 oldal között mozgott. Minden cikkből készítettek egy olyan verziót, amelyből kihagyták a címet, az absztraktot és a szerzők nevét; a cikkek többi tartalma változatlan maradt.

A munkacsoport minden tagja egy-egy különböző MI-modellt választott ki, amelybe feltöltötte az egyes cikkek PDF-jét, és megkérte a modellt egy összefoglaló elkészítésére. A kiválasztott MI-modellek a következők voltak:

- Claude Sonnet 3.7

- Gemini 2.0 Flash

- Microsoft Copilot Chat (GPT-4 alapokon)

- ChatGPT 4 Turbo (a webes felületen keresztül)

- Deepseek-r1:70b Entire Document Ingest (a Purdue Ollama által hosztolva)

- HuggingChat a Llama-3.3-70B modellel

Minden modell a következő promptot (utasítást) kapta az összefoglaló generálásához:

Írj tudományos összefoglalót a mellékelt kutatási cikkhez. Ne szerepeltess olyan információt, amely nem szerepel kifejezetten a kutatási cikkben.

Az összefoglalónak egy bekezdésből kell állnia, körülbelül 150–250 szó terjedelemben.

Az alábbi elemeket kell tartalmaznia:

– *A kutatás kontextusa*: Ha a kutatási cikkben szó esik róla, kérjük, említsd meg a kapcsolódó korábbi kutatásokat és azok jelentőségét.

– *Tárgykör és téma*: Röviden említsd meg a kutatási cikk tárgykörét és témáját.

– *Főbb megállapítások vagy állítások*: Írd le a kutatási cikk fő tézisét, állításait, valamint mennyiségi vagy minőségi eredményeit.

– *Érvelés vagy bizonyíték*: Írd le, hogyan támasztják alá a szerzők a főbb megállapításaikat vagy állításaikat. Ha szóba kerül, jegyezd meg a módszertant.

Törekedj az egyértelműségre és az információ sűrűségére. Ne tartalmazzon idézeteket vagy hivatkozásokat.

Minden modell minden cikket értékelt, kivéve a Llama-3.3-70B modellt használó HuggingChatet az Islam, Ahmed, Mahfuj és munkatársai által írt „Investigating New Drugs…” kezdetű cikk esetében (mivel a HuggingChat a kísérleteink során offline állapotba került). Így összesen 34 egyedi, MI által generált összefoglalót tudtak kiértékelni.

Ezt követően listákat készítettek az egyes cikkek eredeti absztraktjainak legfontosabb pontjairól (9–17 legfontosabb pont). Ezeket a kulcspontokat úgy fogalmazták meg, hogy mindegyik egy-egy konkrét információt tartalmazzon az absztraktból. Az egyes MI-modelleknek adott pontszámok alapja a kulcspontok sikeres említése volt. Az összefoglalókat kulcspontonként pontozták: a modell 1-es vagy 0-s értéket kapott attól függően, hogy az adott kulcspont jelen volt-e vagy sem. Minden cikkhez közösen értékeltek egy összefoglalót, hogy biztosítsák a kulcsfontosságú pontokban való egyetértést és a munkacsoport tagjai közötti összhangot a cikk absztraktjának értelmezésében. Ezt követően minden egyes további összefoglaló kulcspontjait a munkacsoport három-három tagja egymástól függetlenül pontozta.

A kiértékelések elvégzésével kapcsolatos tapasztalataikat „Kvalitatív megfigyelések” címmel rögzítették, négy kérdés mentén:

1. Mi volt a legnehezebben pontozható szempont, és miért?

2. Mi volt a legkönnyebben pontozható szempont, és miért?

3. Miben volt a legnehezebb egyetértésre jutnia az értékelőtársaival (ha volt ilyen)?

4. Nyújtott-e ez a folyamat bármilyen betekintést a modell(ek) belső működésébe? Ha eszébe jutottak ilyen következtetések, kérjük, fejtse ki.

A blogsorozat 2. része az értékelés kvantitatív eredményeit, a 3. rész az értékelési folyamat kvalitatív elemzését mutatja be.

Forrás: Evaluating Chatbot-Generated Summaries of Academic Papers - Ai4lam

A kép forrása: Homepage - Ai4lam

Hír

AI4LAM – A tudományos cikkek chatbotok által generált összefoglalásainak értékelése 1/3

További oldalak

Gyorslinkek

Kapcsolat

Keresés űrlap

Jelenlegi hely

Hír

AI4LAM – A tudományos cikkek chatbotok által generált összefoglalásainak értékelése 1/3

További oldalak

Gyorslinkek

Kapcsolat