A mesterséges intelligencia kutatások térhódítása az elmúlt évtizedekben jelentős
hatással volt a természetesnyelv-feldolgozás (NLP, NLU) fejlődésére. E rendkívül
gazdag kutatási és ipari alkalmazási terület egyik kiemelkedő fontosságú része a
szentiment analízis, illetve szubjektivitás elemzés. Ezek célja, hogy automatikusan
feltérképezzék a szövegek érzelmi töltetét, illetve megkülönböztessék az objektív
és
szubjektív tartalmakat. A szentiment analízis segítségével például különféle
értékelések, közösségi médiában megjelenő vélemények, hírek vagy felhasználói
visszajelzések pozitív, negatív vagy semleges érzelmi viszonyulása azonosítható.
Az informatika fejlődéstörténetében a természetesnyelv elemzés kezdetben logikai,
szabályalapú rendszerekre épült. Az 1950-es évek korai gépi fordítórendszereitől
kezdve a fókusz a formális nyelvek feldolgozásán volt, míg a 21. században a gépi
tanulás és a neurális hálózatok elterjedésével lehetővé vált a szövegek érzelmi és
szubjektív vonatkozásainak hatékonyabb feltérképezése is. Már a mesterséges
intelligencia kutatás hajnalán kimutatták, hogy szavak milliárdjait tartalmazó tanító
halmazok esetén is folyamatosan ismeretlen szavakra bukkanhatunk (Zipf, 1395), így
a szöveg szemantikai tartalmának statisztikai alapú megközelítése több szempontból
problémás lehet. Mára ugyanakkor a statisztikai alapú eljárások átvették a vezető
szerepet a szövegelemzéssel foglalkozó kvantitatív, empirikus társadalomtudományi
elemzésekben. Mivel a Föld populációjának kb. kétharmada social média felhasználó,
emberek kommentjei révén másodpercenként hatalmas méretű, adatvagyon
keletkezik a világban, amelyek feldolgozása egyelőre nem maradéktalanul megoldott,
bár az adat alapú megközelítések alkalmazása jelentős reményeket hordoz.
A legújabb fejlesztések, köztük a nagy nyelvi modellek (LLM) megjelenése
forradalmasították a szövegértelmezési és szentiment-azonosítási képességeket, és
lehetővé tették a bonyolultabb nyelvi mintázatok automatikus felismerését is, de
ezzel egyidőben különféle rejtett, torzító tényezők is beépültek a kutatási
eszköztárba. A WordToVec (Google) és a GLOVE (Stanford) rendszerek például az
első olyan jelentős, az empirikus társadalomtudományi kutatásokban is népszerű
kísérletek, amelyek neurális hálózatok tanításával kíséreltek meg áttörést elérni
a
szöveganalitikában.
Az előadás – a fenti trendekhez alkalmazkodva - a fogyatékossággal élő személyek
elnyomásával kapcsolatos egyik olyan jelenségre és annak veszélyeire hívja fel a
figyelmet, amely során a jelenleg alkalmazott vezető nyelvtechnológiai
alkalmazásokban rejtetten építődnek be torzító elemek a kutatási folyamatokba. Az
előadás ennek kapcsán mutatja be a terület jelenlegi állását és az említett
fogyatékosságtudományi téma szempontjából legfontosabb elemeit a szentiment
analízis és toxicitás elemzés oldaláról.
A szentimentanalízis széles körben alkalmazott technika a természetesnyelv-
feldolgozás (NLP) területén, különösen a közösségi média, ügyfélszolgálat,
piackutatás és online véleménynyilvánítások automatizált feldolgozásában. Azonban
az egyre népszerűbb AI-as-a-Service (AIaaS) modellek – például a TextBlob, VADER,
vagy DistilBERT – gyakran figyelmen kívül hagyják a „szemantikai érzékenység”
kérdését. Ez különösen problémás lehet, ha a modellek olyan torzításokat tanulnak
meg, amelyek a fogyatékossággal élő személyekkel szemben hátrányos
megkülönböztetéshez vezetnek.
Az előadásban azonosítunk néhány olyan jelenséget, torzító tényezőt, amely a
fogyatékossággal élő személyekre utaló kifejezésekhez kapcsolódik. Bizonyos
vizsgálatok eredményei alapján minden elemzett szentimentmodell következetesen
negatívabb értékeket adott a fogyatékossággal kapcsolatos kifejezésekre: Például a
„My neighbour is a blind person” típusú mondatok negatívabb algoritmizált
szentimentértéket kaptak, mint a „My neighbour is a beautiful person”.
Az eredmények arra figyelmeztetnek, hogy a szentimentanalízis mesterséges
intelligenciával támogatott eszközei hozzájárulhatnak a fogyatékossággal élő
személyek társadalmi marginalizációjához és újfent aláhúzzák a kvantitatív
szöveganalitika validálással kapcsolatos módszertani posztulátumainak fontosságát.