Text Content
Toggle navigation
Рус Тат Eng
* Корпусы
* Основной корпус
* Подкорпус общественно-политических текстов
* Подкорпус текстов IT
* Русско-татарский параллельный подкорпус
* Поиск
* Основной корпус
* Подкорпус общественно-политических текстов
* Подкорпус текстов IT
* Русско-татарский параллельный подкорпус
* Публикации
* Инструкции
* Войти
Неточный
ТАТАРСКИЙ НАЦИОНАЛЬНЫЙ КОРПУС «ТУГАН ТЕЛ»
Татарский корпус «Туган тел» является лингвистическим ресурсом современного
литературного татарского языка. Проект выполняется в рамках Государственной
программы «Сохранение, изучение и развитие государственных языков Республики
Татарстан и других языков в Республике Татарстан на 2014-2020 годы».
Разрабатываемый корпус адресован широкому кругу пользователей: лингвистам,
специалистам в области татарского, тюркского и общего языкознания, типологам,
преподавателям татарского языка, деятелям культуры, а также всем, кто изучает и
интересуется татарским языком.
Объем корпуса на конец 2018 года составляет свыше 180 миллионов
словоупотреблений и содержит тексты различных жанров (художественная литература,
тексты СМИ, тексты официальных документов, учебная литература, научные
публикации и др.). Каждый документ имеет метаописание (авторы, их пол, выходные
данные, даты создания, жанры, части, главы и др.). Тексты, включенные в корпус,
снабжены морфологической разметкой (информация о части речи и грамматических
характеристиках словоформы). Морфологическая разметка текстов корпуса
выполняется автоматически с использованием модуля двухуровневого
морфологического анализа татарского языка, реализованного в программном
инструментарии PC-KIMMO.
Для корпуса разработана поисковая система, позволяющая искать материал по
лексеме, словоформе, а также по отдельным грамматическим характеристикам.
Участниками проекта являются сотрудники НИИ «Прикладная семиотика» АН РТ и
Казанского федерального университета (Д.Ш. Сулейманов, О.А. Невзорова,
Р.А. Гильмуллин, А.Р. Гатиатуллин, А.М. Галиева, М.М. Аюпов, Б.Э. Хакимов,
Д.Д. Якубова, Р.Р. Гатауллин, Д.Р. Мухамедшин, Р.Р. Билалов), а также студенты и
магистранты КФУ.
Разработчики Корпуса приносят благодарность издательским коллективам и фондам,
предоставившим для архива Корпуса электронные версии текстов, особая
признательность — редакциям журнала «Ялкын», журнала «Идел», газеты «Ватаным
Татарстан», газеты «Шахри Казан», издательству «Вакыт-Магариф», Национальной
библиотеке Республики Татарстан, а также ГУП РТ «Татарское книжное
издательство».
НОВОСТИ
Поисковый функционал обновлен. Добавлена возможность группировки результатов по
морфологическим свойствам, улучшен пользовательский опыт взаимодействия,
результаты сложного поиска, расчет которых занимает более 1 минуты, загружаются
в фоновом режиме. 10.05.2022
Выполнено обновление коллекции основного корпуса. Текущий объем основного
корпуса — 194 млн. словоформ. 15.12.2019
К концу 2018 года подготовлена коллекция документов на татарском языке по
общественно-политической и IT-тематике общим объемом 27 млн. словоформ. В
качестве источников документов были использованы материалы электронных СМИ,
нормативно-правовых актов на татарском языке, учебных и научных изданий.
06.12.2018
К концу 2018 года подготовлена параллельная коллекция документов на русском и
татарском языках по общественно-политической и IT-тематике общим объемом 7 млн.
словоформ. 03.12.2018
Выполнено обновление коллекции основного корпуса. Текущий объем основного
корпуса - 182 млн. словоформ. 30.11.2018
Открыт доступ к общественно-политическому подкорпусу. 13.12.2017
Открыт доступ к IT-подкорпусу. 11.12.2017
Открыт доступ к русско-татарскому параллельному подкорпусу. 08.12.2017
Размещена инструкция по работе с основным корпусом. 06.12.2017
Выполнено обновление коллекции основного корпуса. Текущий объем основного
корпуса - 154 млн. словоформ. 01.12.2017
2014-2023 © НИИ «Прикладная семиотика» АН РТ
Сообщите нам об ошибках и предложениях: tatarcorpus@gmail.com