Tekintettel arra, hogy egyre nagyobb az érdeklődés a mesterséges intelligencia (MI) eszközök összefoglalás céljára történő felhasználása iránt, ugyanakkor bizonytalanság övezi, hogy a számos rendelkezésre álló MI-modell közül melyik a legalkalmasabb erre a feladatra, az
AI4LAM (Artificial Intelligence for Libraries, Archives & Museums) Értékelési Munkacsoport (Evaluation Working Group) ajánlásokat kívánt kidolgozni a kutatók számára arról, hogy mely modellek alkalmasak kutatási publikációk összefoglalására. A munkacsoport tagjai között van egy főiskolai könyvtáros, egyetemi technológusok, egy közmédia-levéltáros és egy egyetemi posztdoktori kutató, mindannyian az Egyesült Államokból. A munkacsoport tagjai hét MI nyelvi modellt választottak ki a kutatási cikkek összefoglalására, majd manuálisan értékelték a modellek összefoglalóit a cikkek eredeti absztraktjaihoz viszonyítva. Az értékeléseket 2025 májusától augusztusáig végezték, a modellek 2025 elejétől álltak a munkacsoport tagjainak rendelkezésére. Az értékelési pontszámok modell és cikk szerint is észrevehető különbségeket mutattak az összefoglalók átlagos minőségében. Átlagosan a ChatGPT 4 Turbo és a Microsoft Copilot Chat (amely a GPT-4-et használja) rendelkezett a legmagasabb minőségű összefoglalókkal a munkacsoport pontozási módszere szerint.
Az értékelési folyamat során olyan nagyobb kihívások és nyitott kérdések merültek fel a generatív mesterséges intelligencia modellek kimeneteinek értékelésével kapcsolatban, amelyek véleményük szerint túlmutatnak az összefoglalás alkalmazási esetein. Ezeket egy háromrészes blogsorozatban osztották meg, abban a reményben, hogy ezzel vitát indítanak el és visszajelzéseket kapnak az érdeklődő olvasóktól! Ez az első bejegyzés bemutatja, mit csináltak és miért. A második bejegyzés összefoglalja az MI által generált összefoglalók értékelésének kvantitatív eredményeit. A harmadik bejegyzés összefoglalja az MI által generált összefoglalók értékelési folyamatának kvalitatív elemzését.
Először öt publikált, lektorált (peer-reviewed) cikket választottak ki különböző tudományágakból:
„Investigating New Drugs from Marine Seaweed Metabolites for Cervical Cancer Therapy by Molecular Dynamic Modeling Approach” (Islam, Ahmed, Mahfuj és mtsai., 2025)
„PaperBench: Evaluating AI’s Ability to Replicate AI Research” (Starace és mtsai., 2025)
„‘A Womb of My Own’”: Women’s Bodies and Medicine in Early Modern England” (Black, 2025)
„Strong Social Anti-Reductionism Reexamined” (Matsumoto, 2025)
„The Impact of Large Language Models on Computer Science Student Writing” (Zdravkova és Ilijoski, 2025)
Ezeket a nyílt hozzáférésű (open access) cikkeket úgy választották ki, hogy különböző tudományágakat fedjenek le: orvostudomány, számítástechnika, történelem, filozófia és oktatás. Annak biztosítása érdekében, hogy az általuk választott MI-modellek képzési adataiban biztosan ne szerepeljen egyik cikk sem (ami azt jelentené, hogy hozzáfértek a cikkek absztraktjaihoz), olyan cikkeket választottak, amelyek a modellek betanítása és bevezetése után jelentek meg. A cikkek hossza 16 és 30 oldal között mozgott. Minden cikkből készítettek egy olyan verziót, amelyből kihagyták a címet, az absztraktot és a szerzők nevét; a cikkek többi tartalma változatlan maradt.
A munkacsoport minden tagja egy-egy különböző MI-modellt választott ki, amelybe feltöltötte az egyes cikkek PDF-jét, és megkérte a modellt egy összefoglaló elkészítésére. A kiválasztott MI-modellek a következők voltak:
- Claude Sonnet 3.7
- Gemini 2.0 Flash
- Microsoft Copilot Chat (GPT-4 alapokon)
- ChatGPT 4 Turbo (a webes felületen keresztül)
- Deepseek-r1:70b Entire Document Ingest (a Purdue Ollama által hosztolva)
- HuggingChat a Llama-3.3-70B modellel
Minden modell a következő promptot (utasítást) kapta az összefoglaló generálásához:
Írj tudományos összefoglalót a mellékelt kutatási cikkhez. Ne szerepeltess olyan információt, amely nem szerepel kifejezetten a kutatási cikkben.
Az összefoglalónak egy bekezdésből kell állnia, körülbelül 150–250 szó terjedelemben.
Az alábbi elemeket kell tartalmaznia:
– *A kutatás kontextusa*: Ha a kutatási cikkben szó esik róla, kérjük, említsd meg a kapcsolódó korábbi kutatásokat és azok jelentőségét.
– *Tárgykör és téma*: Röviden említsd meg a kutatási cikk tárgykörét és témáját.
– *Főbb megállapítások vagy állítások*: Írd le a kutatási cikk fő tézisét, állításait, valamint mennyiségi vagy minőségi eredményeit.
– *Érvelés vagy bizonyíték*: Írd le, hogyan támasztják alá a szerzők a főbb megállapításaikat vagy állításaikat. Ha szóba kerül, jegyezd meg a módszertant.
Törekedj az egyértelműségre és az információ sűrűségére. Ne tartalmazzon idézeteket vagy hivatkozásokat.
Minden modell minden cikket értékelt, kivéve a Llama-3.3-70B modellt használó HuggingChatet az Islam, Ahmed, Mahfuj és munkatársai által írt „Investigating New Drugs…” kezdetű cikk esetében (mivel a HuggingChat a kísérleteink során offline állapotba került). Így összesen 34 egyedi, MI által generált összefoglalót tudtak kiértékelni.
Ezt követően listákat készítettek az egyes cikkek eredeti absztraktjainak legfontosabb pontjairól (9–17 legfontosabb pont). Ezeket a kulcspontokat úgy fogalmazták meg, hogy mindegyik egy-egy konkrét információt tartalmazzon az absztraktból. Az egyes MI-modelleknek adott pontszámok alapja a kulcspontok sikeres említése volt. Az összefoglalókat kulcspontonként pontozták: a modell 1-es vagy 0-s értéket kapott attól függően, hogy az adott kulcspont jelen volt-e vagy sem. Minden cikkhez közösen értékeltek egy összefoglalót, hogy biztosítsák a kulcsfontosságú pontokban való egyetértést és a munkacsoport tagjai közötti összhangot a cikk absztraktjának értelmezésében. Ezt követően minden egyes további összefoglaló kulcspontjait a munkacsoport három-három tagja egymástól függetlenül pontozta.
A kiértékelések elvégzésével kapcsolatos tapasztalataikat „Kvalitatív megfigyelések” címmel rögzítették, négy kérdés mentén:
1. Mi volt a legnehezebben pontozható szempont, és miért?
2. Mi volt a legkönnyebben pontozható szempont, és miért?
3. Miben volt a legnehezebb egyetértésre jutnia az értékelőtársaival (ha volt ilyen)?
4. Nyújtott-e ez a folyamat bármilyen betekintést a modell(ek) belső működésébe? Ha eszébe jutottak ilyen következtetések, kérjük, fejtse ki.
A blogsorozat 2. része az értékelés kvantitatív eredményeit, a 3. rész az értékelési folyamat kvalitatív elemzését mutatja be.