Автор: adada
Дата: 02-08-07 17:52
Далее, слегка продвинувшись по ссылке от 'ГАВАНА', находим следующие полезные для у-утопистов сведения из докладов "Корпусная лингвистика-2004":
"Работы в рамках проекта RussNet показали, что необходимо верифицировать данные готовых словарей относительно корпуса текстов, ограниченных определенными временными и жанровыми рамками, поскольку часть словарной информации представлена довольно непоследовательно. Было принято решение о построении ядра компьютерного словаря на базе корпуса современных текстов. Этот период, на наш взгляд, начинается с середины 80-х годов (конца "советской эпохи") до настоящего времени. В жанровом отношении в корпусе превалируют тексты, обладающие усредненными значениями информативности и экспрессивности.
Одним из базовых принципов построения wordnet-тезауруса является перечисление значений слова в соответствии с их частотным распределением в корпусе текстов. Этот принцип позволяет также отделить окказиональные значения как такие, которые употребляются менее, чем в 1% случаев для нашего корпуса, состоящего из 21 млн словоупотреблений. При этом структура значений толкового словаря, в частности, МАС, используется как первоначальная схема разграничения смыслов в представительной выборке контекстов слова. В дальнейшем лексико-семантические варианты (ЛСВ) слова упорядочиваются в соответствии с их частотностью употребления.
При формировании "синсетов" (синонимических рядов слов, выражающих некоторое значение) частотность употребления используется для упорядочения элементов синсета: выделяется "доминанта" - наиболее часто используемое нейтральное слово для выражения лексикализованного понятия - и второстепенные элементы синсета, которые существенно уступают доминанте в частоте использования."
===
"В Лаборатории моделирования речевой деятельности в течение ряда лет ведутся работы по созданию Национального корпуса русского литературного языка. В корпус включаются письменные (опубликованные) тексты, датируемые с начала 50-х годов ХХ в. и по настоящее время. Примерно в равных объемах представлены художественная литература, научные (научно-популярные) тексты, публицистика и драма. Корпус служит основой для составления частотного словаря (точнее, частотных словарей), в дальнейшем, как предполагается, корпус выступит источниковой базой для нормативных грамматик и словарей русского языка, для семейства справочных пособий, равно как и для решения существенных проблем моделирования речевой деятельности."
===
"В WordNet словарными статьями являются синсеты - множества слов-синонимов, обозначающих один и тот же концепт в заданном контексте. Каждая словарная статья имеет толкование, не допускающее неоднозначного понимания. Для синсета явно указываются часть речи и толкование. Каждое слово, входящее в состав синсета, может дополнительно иметь ряд атрибутов, например, признаки доминантности, пометы типа "идиома", "близкое значение" и т.д. Для каждого слова может быть приведен пример его употребления в заданном контексте - определяется набор речений и фразеологизмов, также определяются толкования.
В настоящее время русский WordNet включает:
1) 45424 существительных, образующих 53791 синсетов;
2) 29421 глагол, образующий 29471 синсетов;
3) 21317 прилагательных, образующих 25811 синсетов;
4) 5147 наречий, образующих 5181 синсетов;
5) парадигмы для всех лемм словника;
6) определение словообразовательных отношений;"
______________________
adada-inn & адада-съют
|
|