ЧАСТОТНЫЕ СЛОВАРИ

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2022-01-11 10:08

лингвистика

Частотные словари — это словари, в которых содержатся числовые характеристики употребительности слов; слова в них располагаются в зависимости от частоты употребления слов в текстах определённой длины. Этот сравнительно новый тип лексикографических изданий в последние годы стал особенно активно развиваться в связи с внедрением в лексикографию новых технологий.

Частотные словари дают большой материал для решения ряда общетеоретических и прикладных лингвистических проблем, они необходимы при составлении учебных словарей, при разработке учебников, лингвометодической адаптации текстов.

Первым в отечественном языкознании частотным словарём был «Частотный словарь современного русского литературного языка» Э.А. Штейнфельдт, составленный по материалам современной литературы, прессы, радиопередач (50—60-е гг. XX в.) и адресованный в первую очередь преподавателям русского языка как неродного. В нём представлены данные о частотности слов, полученные на основе обработки текстов объёмом в 400 000 слов. В словаре содержатся слова, покрывающие до 80% различных текстов. Кроме обычных указаний на количество употреблений, приводится количество текстов, в которых данное слово отмечено. Даются статистические характеристики некоторых морфологических категорий. Словарь Э.А. Штейнфельдт послужил основой для составления многих учебных толковых словарей и словарей-минимумов.

«Частотный словарь русского языка» под редакцией Л.Н. Засориной представляет собой свод статистических данных о лексическом составе современного русского языка. Словарь был составлен на основе обработки средствами вычислительной техники 1 млн словоупотреблений; он охватывает не только язык художественной литературы, но также публицистическую и деловую речь, бытовавшую в сфере массовой коммуникации. Хронологические рамки словаря, как отмечают составители, «обнимают эпоху от произведений Ленина и Горького до 60-х годов», поэтому исследователи получают ценный материал для изучения лексики советской эпохи. Алфавитно-частотный словник включает все лексемы, встретившиеся в текстах, каждая лексическая единица снабжена количественными характеристиками. Частотный словник содержит слова с частотой 10 и выше, всего 9044 единицы, расположенные в порядке убывания частот. Разнообразные статистические характеристики единиц словаря создают основу для изучения статистической структуры словарного состава русского языка, для определения границ основной лексики. В приложении приводится имеющий большое практическое значение перечень омографов и грамматических омонимов.

Современные базы данных дали мощный импульс развитию частотных словарей. «Частотный словарь современного русского языка» О. Н. Ляшевской и С. А. Шарова основан на коллекции текстов Национального корпуса русского языка, представляющих современный русский язык периода 1950—2007 гг. Объём выборки, на которой построено большинство разделов словаря, составляет 92 млн словоупотреблений. В словаре содержится разнообразная статистическая информация о 50 000 нарицательных и 3000 собственных имён и аббревиатур. Приводятся частотные списки лексики, характерной для публицистики, устной речи и других функциональных стилей, а также списки наиболее употребительных существительных, прилагательных, глаголов и слов других частей речи. Электронная версия словаря опубликована на сайте Института русского языка им. В. В. Виноградова Российской академии наук.

Проект «Частотного словаря словоформ русского языка» А. В. Вен- цова и Е. В. Грудевой представляет собой первую в истории составления частотных словарей русского языка попытку организовать по частоте встречаемости не лексемы, а акцентно размеченные словоформы. Словарь составлен на основе одномиллионного Корпуса русского литературного языка. В проекте представлено полное описание словаря и его основные разделы в виде ограниченных выборок.

В «Частотном тематическом словаре „Городской общественный транспорт» Г.А. Мартиновича представлены результаты дистрибутивно-статистического анализа одной понятийной области — 74 521 000 словоупотреблений, извлечённых из корпуса российских газет отдела машинного фонда русского языка Института русского языка им. В. В. Виноградова, и 29 500 примеров из текстов 9 российских газет за 1997 г.

Многие частотные словари носят прикладной характер и адресованы в первую очередь составителям программ, словарей-минимумов, учебных пособий по русскому языку. Одни из них фиксируют общеупотребительную лексику, другие связаны со специальной или жанрово и стилистически закреплённой частью словарного состава.

«Частотный словарь современного русского языка» П.И. Харакоза состоит из двух частей, представляющих собой два различных частотных словаря, выполненных на различном речевом материале: один на текстах учебников начальных классов, другой — на материале детской разговорной речи. В первой части представлено 5025 слов, составляющих 91,6% всех словоупотреблений в 15 учебниках. Слова представлены в частотных и алфавитных списках. Во второй части представлено 2830 слов бытовой детской разговорной речи, расположенных по частоте и по алфавиту.

Словник «2830 слов, наиболее употребительных в русской разговорной речи» отражает ядро наиболее употребительных слов современной разговорной речи; он составлен на основе анализа живой разговорной речи, записанной на магнитную плёнку (в 1964—1966 гг.). Общий объём собранного материала 400 000 словоупотреблений. Список представлен в двух вариантах — по алфавиту и по распространённости.

«Список наиболее употребительных слов русского языка» под редакцией З.П. Даунене включает слова первой тысячи 13 частотных словарей и списков русского языка, составленных на основе разнообразных материалов. Список насчитывает 3917 слов, включает как знаменательные, так и служебные слова. Рядом с каждым словом указываются источники, в которых оно зафиксировано, и количество этих источников, что даёт возможность выделить наиболее употребительную лексику.

В «Частотный словарь языка газеты» Г.П. Поляковой и Г.Я. Солганика оказались включёнными 1997 слов, имеющих частоту не менее 12 в газетных те кетах длиной 200 000 словоупотреблений. В словаре представлен общий список слов по убывающей частоте, покрывающий в среднем 80—83% газетного текста.

«Комплексный частотный словарь русской научной и технической лексики» П.Н. Денисова и др. содержит списки 3047 наиболее употребительных слов русской научной и технической литературы (частотный, алфавитный, инверсионный, с группировкой по частям речи), а также таблицы, позволяющие судить о распространённости тех или иных грамматических явлений в языке научно-технической литературы.

«Частотный словарь общенаучной лексики» включает 2074 слова. В основу словаря положен текст в 400 000 слов (словоформ). Источниками послужили учебники для вузов шести отраслей знания: математики, физики, химии, биологии, медицины, геологии с географией. Из каждого источника брался один отрывок объёмом в 2000 словоформ. Было обследовано 200 таких выборок. Слова представлены в частотных и алфавитных списках.

Изданием сводного, обобщающего типа является книга «Лексические минимумы русского языка», созданная под редакцией В. В. Морковкина. Открывается словарь списком «Основные структурные лексические единицы русского языка», который объединяет неполнозначные слова и словосочетания, обеспечивающие функционирование полнозначных слов и формирующие модальную структуру текста (например, бывать, в виде, ввиду, как раз, как только, кроме того, собственно, таким образом, хотя, целый и т.п.). Далее следуют перечни слов нарастающего объёма, охватывающие лексическое ядро современного русского языка: 1) 500 самых употребительных русских слов, 2) 1000 самых употребительных русских слов, 3) 1500 слов, 4) 2000 слов, 5) 2500 слов, 6) 3000 слов, 7) 3500 слов. Третья часть книги представляет собой тематический словарь-минимум современного русского языка, цель которого — целесообразно организовать и представить совокупности важнейших русских слов, необходимых для обеспечения продуктивных видов речевой деятельности — говорения и письма. Важную часть книги составляет раздел, представляющий сравнительную и обобщённую ценность наиболее употребительных слов русского языка по данным 8 частотных словарей. Таким образом, словарь является ценным пособием для методистов и преподавателей русского языка, занимающихся составлением учебных пособий, книг для чтения, готовящих практические материалы для учебной работы.

Особое место среди частотных словарей занимают словари, которые могут быть использованы в автоматических информационно-поисковых системах. Так, «Частотный словарь индексирования» (под редакцией Л. В. Сахарного) составлен для решения информационно-поисковых задач. Материалом для словаря послужили 1660 рефератов по электроизмерительным приборам (всего около 105 тыс. словоупотреблений). Принципы составления словаря приложимы к любой отрасли знаний. В основу словаря положена новая для лексикографии единица — гиперлексема (некоторое множество однокоренных лексем одной или разных частей речи, связанных между собой отношениями трансформации, производности: инерция, инерционный, инерционность; зуб, зубец, зубчатый, зубцовый). В словаре гиперлексемы расположены по степени частотности.

«Частотный словарь семантических множителей русского языка» Ю.Н. Караулова составлен по материалам определений в толковых словарях современного русского литературного языка. Единицами счёта в нём являются семантические множители, выступающие в виде сегментов полнозначных слов, являющихся компонентами дефиниций. Отражая статистическую и семантическую структуру правой части толковых словарей, частотный словарь может использоваться для исследований в области лексической семантики, а также в практике лексикографии и информационного поиска. Во вступительной статье показаны возможности применения словаря для нахождения смысловой связи слов при автоматическом построении русского тезауруса.

«Частотный словарь языка массовой коммуникации» Б. В. Кривенко является первым опытом частотного словаря, построенного на материале не только письменных текстов (газета «Комсомольская правда», районные газеты), но и звучащей речи (радио, телевидение, кинохроника). Словарь даёт синхронный срез лексического уровня языка газеты, информационных передач радио и телевидения за 1965—1985 гг. Общая длина текстовой выборки 71 164 словоупотребления. В словаре представлены списки слов по убыванию частотности, списки слов по алфавиту. Первые места в списке наиболее частотных слов (за исключением служебных слов и местоимений) занимают слова год, работа, страна, день, колхоз, дело, время, партия, новый, совет, рабочий, советский, народ, район, сегодня, город, организация, человек, председатель, секретарь, большой, область, имя, мир, республика, план. Частотность слов в языке средств массовой информации прекрасно отражает особенности советского политического дискурса, набор идеологем советского времени. «Статистический словарь русской газеты» А.Я. Шайкевича и др. даёт представление о частотности лексики в газетах 90-х гг. XX в. Эти же цели преследует словарь О. В. Голованя.

Исследование частотности лексических единиц позволяет сделать важные выводы об особенностях языка и стиля писателя. Неслучайно в последние годы издано большое количество частотных словарей языка художественных произведений русских писателей и поэтов.

В. Козырев, д.пед.н., В. Черняк, д.ф.н.


Источник: vk.com

Комментарии: