Vissza az archívumhoz

Napi AI hírek

14 cikk v0.5.1

Kiemelt cikk

7.6 pont

Nagyszabású nyelvi modellek alapú ügynökrendszerek klinikai döntéstámogatási feladatokhoz

Nature febr. 19.

A legújabb kutatás a nagyszabású nyelvi modellek (LLM) alapú ügynökrendszerek teljesítményének szisztematikus értékelésére összpontosít, különös figyelmet fordítva a klinikai döntéstámogatási feladatokra. Az OpenManus és a Manus rendszerek összehasonlítása fontos tanulságokat nyújt a klinikai alkalmazásokra vonatkozóan. Az OpenManus, amely az OpenAI Llama-4 modelljén alapul, orvosi területen testreszabott ügynökökkel bővítve, míg a Manus egy szabadalmaztatott rendszer, amely egy többlépcsős tervező-végrehajtó-ellenőrző architektúrát alkalmaz. A kutatás során a rendszereket három benchmark tesztcsoportra vonatkozóan értékelték, amelyek a diagnosztikai szimulációk és a tudásintenzív orvosi QA feladatok köré összpontosítanak.

Az eredmények azt mutatják, hogy bár az ügynökrendszerek hozzáférnek fejlett eszközökhöz, mint például webes böngészés és szövegfájl-szerkesztés, a teljesítményük nem volt jelentősen jobb a hagyományos LLM-ekhez képest. A diagnosztikai szimulációnál az ügynökrendszerek csupán 60,3%-os pontosságot értek el, míg más teszteken, mint például a MedAgentsBench, a teljesítmény még alacsonyabb volt. A multimodális feladatoknál a pontosság mindössze 15,5%-os eredményt mutatott, ami arra utal, hogy a jelenlegi ügynöki tervezések nem felelnek meg a klinikai igényeknek.

Ez a kutatás világosan rámutat arra, hogy a klinikai döntéstámogatás terén a jelenlegi ügynökrendszerek nem nyújtanak elegendő teljesítményjavulást ahhoz, hogy komolyabban mérlegeljék a bevezetésüket. A költségek és a számítási igények, amelyek a rendszerek működtetésével járnak, jelentősen megnövekedtek, ami azt jelenti, hogy a jövőbeni fejlesztéseknek sürgősen a hatékonyság és a pontosság javítására kell összpontosítaniuk, hogy klinikailag alkalmazható megoldások születhessenek.

További hírek

6.5

Az IBM Bob egy generatív AI-alapú IDE, amely automatizálja a kódellenőrzési folyamatokat, lehetővé téve a fejlesztők számára, hogy a fejlesztés magasabb szintű tervezési döntéseire összpontosítsanak.

5.3
Elkerülve az újra-bevezetési adót
by Rick Guetter febr. 19. 12:50 Angol

Az AI chat-történetek rendszerezése nehézségekbe ütközik, de a Projektek funkciók segíthetnek a folyamatok szervezésében és az ismételt bevezetési idő csökkentésében.