@article{MTMT:34798173, title = {Hogy kötőszós inszubordinált mellékmondatok korpuszalapú elemzése}, url = {https://m2.mtmt.hu/api/publication/34798173}, author = {Dér, Csilla Ilona and Sass, Bálint}, doi = {10.14232/JENY.2024.1.2}, journal-iso = {JELENTÉS ÉS NYELVHASZNÁLAT}, journal = {JELENTÉS ÉS NYELVHASZNÁLAT}, volume = {11}, unique-id = {34798173}, abstract = {A vizsgálat a hogy kötőszós függetlenedett mellékmondatok minél nagyobb számban történő kinyerésére irányult az MNSz2 teljes korpuszán. Mivel ezek a mondatok ritkaságuk miatt általános lekérdezésekből kapott találati mintákban kevéssé adatolhatók, és rengeteg manuális munkát igényel a kinyerésük, a korábbi kutatások során feltárt jellemzők mentén (pl. rövidség, nagy kezdőbetűs a kötőszó, jellemzően vannak névmások a mondatban, egyes típusokban a záró írásjel felkiáltójel) szűkítettük a CQL lekérdezéseket (a kötőszóval együtt összesen hat szónyi, írásjelre végződő egységeket kértünk le). A pontosabb lekérdezés jelentősen hatékonyabbnak bizonyult a korábbiakhoz képest, és ennek köszönhetően számos információt nyertünk a magyar hogy kötőszós inszubordinált mellékmondatok tulajdonságairól és gyakorisági viszonyairól. A mind szintaktikailag, mind pragmatikailag egyedülálló típus jellemző írásjele a felkiáltójel, a kívánság altípusban a feltételes mód, az értékelő altípusban pedig a kötőszót követő nem személyes névmás a tipikus mintázat. Lehetségessé vált a csak szintaktikailag független elaboratív mellékmondatok kategóriákba sorolása (echókérdések, nem echókérdések, a nyelvi tevékenységre irányuló metapragmatikai, valamint idéző független mellékmondatok), és a köztük lévő átmenetek regisztrálása is. The study was aimed at extracting as many independent clauses as possible from the entire corpus of MNSz2. Since, due to their rarity, these sentences are hard to collect using general corpus queries and their extraction requires a lot of manual work, along the lines of the features revealed during previous research (e.g. brevity, capitalized conjunction, there are typically pronouns in the clause, in some types the closing punctuation mark is an exclamation mark) we narrowed down the CQL queries (including the conjunction hogy (‘that’), we requested a total of six word units ending in a punctuation mark). The more precise query proved to be significantly more effective compared to the previous ones, and thanks to this we gained a lot of information about the properties and frequency relationships of Hungarian insubordinate hogy-clauses. The characteristic punctuation mark of the syntactically and pragmatically independent stand-alone type is the exclamation mark, the conditional mood is the typical pattern in the wish subtype, and a non-personal pronoun following the conjunction in the evaluative subtype. It became possible to classify the only syntactically independent elaborative clauses into categories (echo questions, non-echo questions, metapragmatic clauses aimed at language activity and quoting), and also to register the transitions between them.}, keywords = {corpus analysis; complementizers; kötőszó; inszubordináció; korpuszelemzés; insubordination; függetlenedett mellékmondatok; independent clauses}, year = {2024}, eissn = {2064-9940}, pages = {39-56}, orcid-numbers = {Sass, Bálint/0000-0002-3372-4385} } @inproceedings{MTMT:34554977, title = {OCR-hibák kvantitatív elemzése több szövegváltozat összehasonlításával}, url = {https://m2.mtmt.hu/api/publication/34554977}, author = {Pethő, Gergely and Sass, Bálint and Simon, László and Lipp, Veronika}, booktitle = {XX. Magyar Számítógépes Nyelvészeti Konferencia}, unique-id = {34554977}, year = {2024}, pages = {17-29}, orcid-numbers = {Sass, Bálint/0000-0002-3372-4385} } @misc{MTMT:34216235, title = {Középmagyar emlékirat- és drámakorpusz}, url = {https://m2.mtmt.hu/api/publication/34216235}, author = {Gugán, Katalin and Bácsi, Enikő and Dömötör, Adrienne and Horváth, László and Mohay, Zsuzsanna and Varga, Mónika and Sass, Bálint}, unique-id = {34216235}, year = {2023}, orcid-numbers = {Sass, Bálint/0000-0002-3372-4385} } @misc{MTMT:34205989, title = {Moldvai magyar korpusz -- részletek Tánczos Vilmos gyűjtéséből}, url = {https://m2.mtmt.hu/api/publication/34205989}, author = {Eris, Elvira Mária and Huszár, Anna Laura and Kalivoda, Ágnes and Sass, Bálint and Vadász, Noémi and Vargha, Fruzsina Sára}, unique-id = {34205989}, year = {2023}, orcid-numbers = {Sass, Bálint/0000-0002-3372-4385; Vargha, Fruzsina Sára/0000-0001-7204-4094} } @inproceedings{MTMT:34170260, title = {From a dictionary towards the Hungarian Constructicon}, url = {https://m2.mtmt.hu/api/publication/34170260}, author = {Sass, Bálint}, booktitle = {Electronic lexicography in the 21st century (eLex 2023): Invisible Lexicography. Proceedings of the eLex 2023 conference. Brno, 27–29 June 2023}, unique-id = {34170260}, year = {2023}, pages = {534-544}, orcid-numbers = {Sass, Bálint/0000-0002-3372-4385} } @inproceedings{MTMT:33614912, title = {Korpusztisztítás és sorvégi kötőjelek kezelése karakteralapú neurális nyelvmodellel}, url = {https://m2.mtmt.hu/api/publication/33614912}, author = {Pethő, Gergely and Sass, Bálint and Simon, László and Lipp, Veronika}, booktitle = {XIX. Magyar Számítógépes Nyelvészeti Konferencia, MSZNY-2023}, unique-id = {33614912}, year = {2023}, pages = {291-304}, orcid-numbers = {Sass, Bálint/0000-0002-3372-4385} } @article{MTMT:33263658, title = {Principles of corpus querying: A discussion note}, url = {https://m2.mtmt.hu/api/publication/33263658}, author = {Sass, Bálint}, doi = {10.1556/2062.2022.00581}, journal-iso = {ACTA LING ACAD}, journal = {ACTA LINGUISTICA ACADEMICA}, volume = {69}, unique-id = {33263658}, issn = {2559-8201}, abstract = {Nowadays, it is quite common in linguistics to base research on data instead of introspection. There are countless corpora – both raw and linguistically annotated – available to us which provide essential data needed. Corpora are large in most cases, ranging from several million words to some billion words in size, clearly not suitable to investigate word by word by close reading. Basically, there are two ways to retrieve data from them: (1) through a query interface or (2) directly by automatic text processing. Here we present principles on how to soundly and effectively collect linguistic data from corpora by querying i.e. without knowledge of programming to directly manipulate the data. What is worth thinking about, which tools to use, what to do by default and how to solve problematic cases. In sum, how to obtain correct and complete data from corpora to do linguistic research.}, year = {2022}, eissn = {2560-1016}, pages = {599-614}, orcid-numbers = {Sass, Bálint/0000-0002-3372-4385} } @inproceedings{MTMT:32637953, title = {Igekötő-kapcsolás}, url = {https://m2.mtmt.hu/api/publication/32637953}, author = {Pethő, Gergely and Sass, Bálint and Kalivoda, Ágnes and Simon, László and Lipp, Veronika}, booktitle = {XVIII. Magyar Számítógépes Nyelvészeti Konferencia : MSZNY 2022}, unique-id = {32637953}, year = {2022}, pages = {77-91}, orcid-numbers = {Sass, Bálint/0000-0002-3372-4385} } @article{MTMT:31940069, title = {Oltakozás 3.0}, url = {https://m2.mtmt.hu/api/publication/31940069}, author = {Sass, Bálint}, journal-iso = {MAGYAR HANG}, journal = {MAGYAR HANG}, volume = {4}, unique-id = {31940069}, issn = {2630-8258}, year = {2021}, pages = {27}, orcid-numbers = {Sass, Bálint/0000-0002-3372-4385} } @inproceedings{MTMT:31840539, title = {Magyar hadifoglyok adatainak orosz-magyar átírása és helyreállítása, és a szabadszöveges adatbázisok tulajdonságai}, url = {https://m2.mtmt.hu/api/publication/31840539}, author = {Sass, Bálint and Mittelholcz, Iván and Halász, Dávid and Lipp, Veronika and Kalivoda, Ágnes}, booktitle = {XVII. Magyar Számítógépes Nyelvészeti Konferencia : MSZNY 2021}, unique-id = {31840539}, year = {2021}, pages = {39-51}, orcid-numbers = {Sass, Bálint/0000-0002-3372-4385} }