Nagyszabású nyelvi modellek alapú ügynökrendszerek klinikai döntéstámogatási feladatokhoz
A legújabb kutatás a nagyszabású nyelvi modellek (LLM) alapú ügynökrendszerek teljesítményének szisztematikus értékelésére összpontosít, különös figyelmet fordítva a klinikai döntéstámogatási feladatokra. Az OpenManus és a Manus rendszerek összehasonlítása fontos tanulságokat nyújt a klinikai alkalmazásokra vonatkozóan. Az OpenManus, amely az OpenAI Llama-4 modelljén alapul, orvosi területen testreszabott ügynökökkel bővítve, míg a Manus egy szabadalmaztatott rendszer, amely egy többlépcsős tervező-végrehajtó-ellenőrző architektúrát alkalmaz. A kutatás során a rendszereket három benchmark tesztcsoportra vonatkozóan értékelték, amelyek a diagnosztikai szimulációk és a tudásintenzív orvosi QA feladatok köré összpontosítanak.
Az eredmények azt mutatják, hogy bár az ügynökrendszerek hozzáférnek fejlett eszközökhöz, mint például webes böngészés és szövegfájl-szerkesztés, a teljesítményük nem volt jelentősen jobb a hagyományos LLM-ekhez képest. A diagnosztikai szimulációnál az ügynökrendszerek csupán 60,3%-os pontosságot értek el, míg más teszteken, mint például a MedAgentsBench, a teljesítmény még alacsonyabb volt. A multimodális feladatoknál a pontosság mindössze 15,5%-os eredményt mutatott, ami arra utal, hogy a jelenlegi ügynöki tervezések nem felelnek meg a klinikai igényeknek.
Ez a kutatás világosan rámutat arra, hogy a klinikai döntéstámogatás terén a jelenlegi ügynökrendszerek nem nyújtanak elegendő teljesítményjavulást ahhoz, hogy komolyabban mérlegeljék a bevezetésüket. A költségek és a számítási igények, amelyek a rendszerek működtetésével járnak, jelentősen megnövekedtek, ami azt jelenti, hogy a jövőbeni fejlesztéseknek sürgősen a hatékonyság és a pontosság javítására kell összpontosítaniuk, hogy klinikailag alkalmazható megoldások születhessenek.