Татар теленең язма корпусы
Татар теленең язма корпусы татар телендә иҗат ителгән электрон текстларның онлайн җыелмасын тәшкил итә. Язма корпус татар теленең системасы, хәле, алдагы көне белән кызыксынучы шәхесләрне күздә тотып төзелә. Ул татар телен корпуслы лингвистика кысаларында өйрәнүче белгечләр өчен зарури чыганак.
Сайт 2012 елның 15 мартында ачыла. Хәзерге адресы http://corpus.tatar 2016 елның 26 апрель көнендә архивланган..
Татар, рус һәм инглиз телләрендә эшли.
Татар теленең язма корпусы | |
---|---|
Cкриншоты | [[Файл:|220x350px|Фото]] |
Төр | белем бирү/фәнни проект |
Теркәлү | 2010 |
Телләр | татар/рус/инглиз |
Урнашу | Татарстан |
Хуҗасы | Сайхунов М.Р., Ибраһимов Т.И., Хөсәенов Р.Р. |
Эшли башлау вакыты | 2012 |
Халәте | Эшли һәм үсә |
URL | corpus.tatar/tt |
Корпусның күләме
үзгәртү2014 елның азагыннан башлап корпусның күләме 116 млн сүз тәшкил итә. Җөмләләр саны - 10 млн, сүзформалар саны - 1,5 млн.
Корпуста текстлар тәртибе буталган аерым җөмләләр буларак саклана.
Куллана алу
үзгәртүКорпусны куллану бушлай.
Корпусны төзә башлау
үзгәртүКорпусны төзү 2010 елда энтузиастлар төркеме тарафыннан башланды. Аның әһәмияте татар һәм башка телләр арасында машина тәрҗемәсе системасын төзү, татарча сөйләмне автоматик синтезлау һәм тану проблемаларын чишү өчен нигез булып торуы белән аңлатыла.
Практик әһәмияте һәм кулланылу мөмкинлекләре
үзгәртүТатар теле корпусының төп вазыйфасы – татар теле лексикасын фәнни планда өйрәнүгә булышлык күрсәтү. Моннан тыш электрон корпус телгә өйрәтүдә, шулай ук сүзлек-белешмәлек буларак төрле документлар язуда зур ярдәм күрсәтергә мөмкин.
Корпус билгеле бер сыйфатлар җыелмасына ия булган сүзләрне табарга, аларның контексты, кулланылу ешлыгы белән танышырга мөмкинлек бирә.
Коллокацияләр (статистик) корпусы
үзгәртүӘлеге эзләү төре 2018 елның 6 апрель көнендә архивланган. эзләнәсе сүзнең кулланылу ешлыгы тәртибендә урнаштырылган уң, сул һәм семантик контекстларын күрсәтә.
Уң контекст - әлеге сүзнең нәкъ менә уң ягында килгән сүзләр.
Сул контекст - әлеге сүзнең нәкъ менә сул ягында килгән сүзләр.
Семантик контекст - әлеге сүз белән бер үк җөмләдә килгән сүзләр, ягъни билгеле бер дәрәҗәдә семантик бәйләнешкә ия очраклар.
Катлаулы морфологик эзләү
үзгәртү2014 елда Корпусны морфологик тамгалау эше башкарылды. Грамматик тамгалар метателе нигезенә Apertium халыкара проекты тарафыннан төрки телләр өчен эшләнгән «тег»лар системасы алынды. Ул проект кысаларында дөньяның күп телләрендәге текстларны автоматик рәвештә үзара тәрҗемә итү системасы эшләнә. Язма корпусны тамгалау өчен нәкъ менә Apertium’ны сайлау түбәндәге сәбәпләр белән аңлатыла:
- морфологик аннотациянең югары дәрәҗәдә булуы;
- ул проектның тулысынча ачыклыгы, ягъни бөтен код һәм мөмкинлекләренең теләсә кем тарафыннан бушлай кулланыла алуы.
2015-2016 елларда безнең тарафтан эшләнгән Катлаулы морфологик эзләү 2018 елның 6 апрель көнендә архивланган. системасы Корпуста сүзформа, лемма, морфологик (грамматик) теглар, сүзнең башы, уртасы, азагы, алар арасындагы ераклык кебек билгеләрнең төрле комбинацияләре нигезендә мисаллар эзләргә мөмкинлек бирә. Эзләнәсе юлның озынлыгы биш сүзгә җитә, һәм алар арасындагы дүрт ераклык күрсәткече дә каралган.
Татарча сөйләм синтезлагыч
үзгәртүТатар теле Язма корпусы сайтында мисал буларак китерелгән җөмләләрне һәм үзегезнең текстларны(үле сылтама) тыңлап карау мөмкинлеге эшләнде.
Статистик мәгълүмат
үзгәртүКорпусның авторлары эш барышында җыелган төрле статистик мәгълүматны 2018 елның 8 июль көнендә архивланган. сайтта урнаштыра баралар.
Кимчелекләр һәм перспективалар
үзгәртү- Корпусның оффлайн версиясе әлегә әзер булмавы.
- Омонимия очракларының бары тик автоматик рәвештә генә эшкәртелүе.
Төзүчеләр
үзгәртүКорпусны ясаучылар:
- Сайхунов М.Р. (филология фәннәре кандидаты, ТР ФА Информатика институтының фәнни хезмәткәре)
- Ибраһимов Т.И. (филология фәннәре кандидаты, КФУ гамәли лингвистика кафедрасы доценты)
- Хөсәенов Р.Р. (инженер, GDC компаниясе)
Ярдәм күрсәтүчеләр:
- Республика традицион мәдәниятне үстерү үзәге
- Турку университетының фин-угор телләре кафедрасы (Финляндия)
- «RX5» компаниясе
- «Фән һәм Тел» фәнни-мәгълүмати журнал редакциясе
- Татар теленең язма корпусы // «Мәдәни җомга» (2012 № 20) 2016 елның 26 апрель көнендә архивланган.
- Татар теленең язма корпусы // "Фән һәм Тел" (2012 №1-2) 2016 елның 26 апрель көнендә архивланган.
- Татар теленең язма корпусы һәм тел мәсьәләләре // "Мәдәни җомга" (2012 №32) 2016 елның 26 апрель көнендә архивланган.
- К построению структурно-функциональной модели ценностной ориентации татарского этноса (по материалам письменного корпуса татарского языка) // Языки России и стран ближнего зарубежья как иностранные: преподавание и изучение: материалы Международной научно-практической конференции (28-29 ноября 2013 г.) 2016 елның 26 апрель көнендә архивланган.
- Письменный корпус татарского языка: идеи, проблемы, решения // Нематериальное культурное наследие тюркских народов как объект сохранения: сборник материалов Международной научно-практической конференции (16-19 июля 2014 г.) 2016 елның 26 апрель көнендә архивланган.
- Письменный корпус татарского языка с озвучением визуализированных предложений как инструмент лингвистических исследований // Сопоставительная филология и полилингвизм: Материалы Всероссийской научно-практической конференции (Казань, 19-21 ноября 2014 г.) 2016 елның 26 апрель көнендә архивланган.
- Письменный корпус татарского языка: структурные и функциональные характеристики // Актуальные проблемы диалектологии языков народов России: Материалы ХIV Всероссийской научной конференции (Уфа, 20-22 ноября 2014 г.) 2016 елның 25 апрель көнендә архивланган.
- Татар теле, татарлар һәм ассимиляция күренеше // "Фәнни Татарстан" (2015 №1) 2016 елның 25 апрель көнендә архивланган.
- The language situation of an ethnic community (on the material of the Corpus of written Tatar language) // "Tatarica" (2015 №4) 2016 елның 26 апрель көнендә архивланган.
- Языковое состояние этнической общности на материале Письменного корпуса татарского языка // "Tatarica" (2015 №4) 2016 елның 26 апрель көнендә архивланган.
- Фонология татарского языка в плане теории фонемы И.А. Бодуэна де Куртенэ // И.А. Бодуэн де Куртенэ и мировая лингвистика: международная конференция: V Бодуэновские чтения (Казанский федеральный университет, 12-15 октября 2015 г.) 2016 елның 26 апрель көнендә архивланган.
Чыганаклар
үзгәртү- Татар теленең язма корпусы - Официаль сайт 2017 елның 21 гыйнвар көнендә архивланган.
- ↑ архив күчермәсе, archived from the original on 2017-11-10, retrieved 2016-06-29