TY - JOUR AU - Dér, Csilla Ilona AU - Sass, Bálint TI - Hogy kötőszós inszubordinált mellékmondatok korpuszalapú elemzése JF - JELENTÉS ÉS NYELVHASZNÁLAT J2 - JELENTÉS ÉS NYELVHASZNÁLAT VL - 11 PY - 2024 IS - 1 SP - 39 EP - 56 PG - 18 SN - 2064-9940 DO - 10.14232/JENY.2024.1.2 UR - https://m2.mtmt.hu/api/publication/34798173 ID - 34798173 AB - A vizsgálat a hogy kötőszós függetlenedett mellékmondatok minél nagyobb számban történő kinyerésére irányult az MNSz2 teljes korpuszán. Mivel ezek a mondatok ritkaságuk miatt általános lekérdezésekből kapott találati mintákban kevéssé adatolhatók, és rengeteg manuális munkát igényel a kinyerésük, a korábbi kutatások során feltárt jellemzők mentén (pl. rövidség, nagy kezdőbetűs a kötőszó, jellemzően vannak névmások a mondatban, egyes típusokban a záró írásjel felkiáltójel) szűkítettük a CQL lekérdezéseket (a kötőszóval együtt összesen hat szónyi, írásjelre végződő egységeket kértünk le). A pontosabb lekérdezés jelentősen hatékonyabbnak bizonyult a korábbiakhoz képest, és ennek köszönhetően számos információt nyertünk a magyar hogy kötőszós inszubordinált mellékmondatok tulajdonságairól és gyakorisági viszonyairól. A mind szintaktikailag, mind pragmatikailag egyedülálló típus jellemző írásjele a felkiáltójel, a kívánság altípusban a feltételes mód, az értékelő altípusban pedig a kötőszót követő nem személyes névmás a tipikus mintázat. Lehetségessé vált a csak szintaktikailag független elaboratív mellékmondatok kategóriákba sorolása (echókérdések, nem echókérdések, a nyelvi tevékenységre irányuló metapragmatikai, valamint idéző független mellékmondatok), és a köztük lévő átmenetek regisztrálása is. The study was aimed at extracting as many independent clauses as possible from the entire corpus of MNSz2. Since, due to their rarity, these sentences are hard to collect using general corpus queries and their extraction requires a lot of manual work, along the lines of the features revealed during previous research (e.g. brevity, capitalized conjunction, there are typically pronouns in the clause, in some types the closing punctuation mark is an exclamation mark) we narrowed down the CQL queries (including the conjunction hogy (‘that’), we requested a total of six word units ending in a punctuation mark). The more precise query proved to be significantly more effective compared to the previous ones, and thanks to this we gained a lot of information about the properties and frequency relationships of Hungarian insubordinate hogy-clauses. The characteristic punctuation mark of the syntactically and pragmatically independent stand-alone type is the exclamation mark, the conditional mood is the typical pattern in the wish subtype, and a non-personal pronoun following the conjunction in the evaluative subtype. It became possible to classify the only syntactically independent elaborative clauses into categories (echo questions, non-echo questions, metapragmatic clauses aimed at language activity and quoting), and also to register the transitions between them. LA - Hungarian DB - MTMT ER - TY - CHAP AU - Pethő, Gergely AU - Sass, Bálint AU - Simon, László AU - Lipp, Veronika ED - Berend, Gábor ED - Gosztolya, Gábor ED - Vincze, Veronika TI - OCR-hibák kvantitatív elemzése több szövegváltozat összehasonlításával T2 - XX. Magyar Számítógépes Nyelvészeti Konferencia PB - Szegedi Tudományegyetem CY - online kiadás SN - 9789633069738 PY - 2024 SP - 17 EP - 29 PG - 13 UR - https://m2.mtmt.hu/api/publication/34554977 ID - 34554977 LA - Hungarian DB - MTMT ER - TY - GEN AU - Gugán, Katalin AU - Bácsi, Enikő AU - Dömötör, Adrienne AU - Horváth, László AU - Mohay, Zsuzsanna AU - Varga, Mónika AU - Sass, Bálint TI - Középmagyar emlékirat- és drámakorpusz PY - 2023 UR - https://m2.mtmt.hu/api/publication/34216235 ID - 34216235 LA - Hungarian DB - MTMT ER - TY - GEN AU - Eris, Elvira Mária AU - Huszár, Anna Laura AU - Kalivoda, Ágnes AU - Sass, Bálint AU - Vadász, Noémi AU - Vargha, Fruzsina Sára TI - Moldvai magyar korpusz -- részletek Tánczos Vilmos gyűjtéséből PY - 2023 UR - https://m2.mtmt.hu/api/publication/34205989 ID - 34205989 LA - Hungarian DB - MTMT ER - TY - CHAP AU - Sass, Bálint ED - Medveď, M. ED - Měchura, M. ED - Tiberius, C. ED - Kosem, I. ED - Kallas, J. ED - Jakubíček, M. ED - Krek, S. TI - From a dictionary towards the Hungarian Constructicon T2 - Electronic lexicography in the 21st century (eLex 2023): Invisible Lexicography. Proceedings of the eLex 2023 conference. Brno, 27–29 June 2023 PB - Lexical Computing CY - Brno PY - 2023 SP - 534 EP - 544 PG - 11 UR - https://m2.mtmt.hu/api/publication/34170260 ID - 34170260 LA - English DB - MTMT ER - TY - CHAP AU - Pethő, Gergely AU - Sass, Bálint AU - Simon, László AU - Lipp, Veronika ED - Berend, Gábor ED - Gosztolya, Gábor ED - Vincze, Veronika TI - Korpusztisztítás és sorvégi kötőjelek kezelése karakteralapú neurális nyelvmodellel T2 - XIX. Magyar Számítógépes Nyelvészeti Konferencia, MSZNY-2023 PB - Szegedi Tudományegyetem TTIK, Informatikai Intézet CY - Szeged SN - 9789633069127 PY - 2023 SP - 291 EP - 304 PG - 14 UR - https://m2.mtmt.hu/api/publication/33614912 ID - 33614912 LA - Hungarian DB - MTMT ER - TY - JOUR AU - Sass, Bálint TI - Principles of corpus querying: A discussion note JF - ACTA LINGUISTICA ACADEMICA J2 - ACTA LING ACAD VL - 69 PY - 2022 IS - 4 SP - 599 EP - 614 PG - 16 SN - 2559-8201 DO - 10.1556/2062.2022.00581 UR - https://m2.mtmt.hu/api/publication/33263658 ID - 33263658 AB - Nowadays, it is quite common in linguistics to base research on data instead of introspection. There are countless corpora – both raw and linguistically annotated – available to us which provide essential data needed. Corpora are large in most cases, ranging from several million words to some billion words in size, clearly not suitable to investigate word by word by close reading. Basically, there are two ways to retrieve data from them: (1) through a query interface or (2) directly by automatic text processing. Here we present principles on how to soundly and effectively collect linguistic data from corpora by querying i.e. without knowledge of programming to directly manipulate the data. What is worth thinking about, which tools to use, what to do by default and how to solve problematic cases. In sum, how to obtain correct and complete data from corpora to do linguistic research. LA - English DB - MTMT ER - TY - CHAP AU - Pethő, Gergely AU - Sass, Bálint AU - Kalivoda, Ágnes AU - Simon, László AU - Lipp, Veronika ED - Berend, Gábor ED - Gosztolya, Gábor ED - Vincze, Veronika TI - Igekötő-kapcsolás T2 - XVIII. Magyar Számítógépes Nyelvészeti Konferencia : MSZNY 2022 PB - Szegedi Tudományegyetem, Informatikai Intézet CY - Szeged SN - 9789633068489 T3 - MSZNY ; 18.. PY - 2022 SP - 77 EP - 91 PG - 15 UR - https://m2.mtmt.hu/api/publication/32637953 ID - 32637953 LA - Hungarian DB - MTMT ER - TY - JOUR AU - Sass, Bálint TI - Oltakozás 3.0 JF - MAGYAR HANG J2 - MAGYAR HANG VL - 4 PY - 2021 IS - 13 SP - 27 SN - 2630-8258 UR - https://m2.mtmt.hu/api/publication/31940069 ID - 31940069 LA - Hungarian DB - MTMT ER - TY - CHAP AU - Sass, Bálint AU - Mittelholcz, Iván AU - Halász, Dávid AU - Lipp, Veronika AU - Kalivoda, Ágnes ED - Berend, Gábor ED - Gosztolya, Gábor ED - Vincze, Veronika TI - Magyar hadifoglyok adatainak orosz-magyar átírása és helyreállítása, és a szabadszöveges adatbázisok tulajdonságai T2 - XVII. Magyar Számítógépes Nyelvészeti Konferencia : MSZNY 2021 PB - Szegedi Tudományegyetem, Informatikai Intézet CY - Szeged SN - 9789633067819 PY - 2021 SP - 39 EP - 51 PG - 13 UR - https://m2.mtmt.hu/api/publication/31840539 ID - 31840539 LA - Hungarian DB - MTMT ER -