Викисловарь

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Викисловарь
Wiktionary
Wiktionary-logo-en.png
Логотип Викисловаря
URL:

www.wiktionary.org

Коммерческий:

Нет

Тип сайта:

Сетевой словарь

Регистрация:

Необязательная

Язык(и):

170

Расположение сервера:

Майами

Владелец:

Фонд Викимедиа

Автор:

Джимми Уэйлс

Начало работы:

12 декабря 2002

Викисловарь на Викискладе

Викислова́рь (англ. Wiktionary) — свободно пополняемый многофункциональный многоязычный словарь и тезаурус, основанный на вики-движке. Один из проектов фонда «Викимедиа». Сначала появился на английском языке 12 декабря 2002 года.

В словаре содержатся грамматические описания, толкования и переводы слов. Кроме того, в статьях может отражаться информация об этимологии, фонетических свойствах и семантических связях слов. Таким образом, Викисловарь — попытка объединить в одном продукте грамматический, толковый, этимологический и многоязычный словари, а также тезаурус.

Данные викисловарей активно используются при решении различных задач, связанных с машинной обработкой текста и речи[⇨].

Лексикографическая концепция[править | править вики-текст]

Благодаря взаимосвязи между разными языковыми разделами Wiktionary, а также между участниками словарного и других проектов «Фонда Викимедиа», участники каждого из них могут использовать концепции, инструменты и лексикографические материалы, созданные их коллегами — носителями других языков. В ходе работы над различными языковыми разделами словаря сложилась комплексная концепция универсального лексикографического ресурса, ставшая впервые возможной благодаря электронным технологиям. Концепция предполагает в конечном итоге полное, всестороннее описание всех лексических единиц всех естественных (и основных искусственных) языков, имеющих письменность. Полнота описания означает наличие сведений о фонетике, морфологии, синтаксических и семантических свойствах лексической единицы, её этимологии, сочетаемости и фразеологии. Полнота и степень последовательности реализации этой концепции может варьироваться в разных языковых разделах проекта.

В каждом языковом разделе «титульный» язык является центральным — все статьи пишутся исключительно на нём, кроме того, ставится цель дать переводы слов и других единиц этого языка на максимально возможное число других языков. Слова других языков переводятся, как правило, только на этот «титульный» язык. Так, в русском Викисловаре для русских слов даются толкования и переводы на иностранные языки, для иностранных слов вместо толкований даются переводы на русский язык.

При описании морфологии делается попытка дать максимально полную картину словоизменения, включая указание класса словоизменения. В частности, морфологические сведения по русским лексемам даются в соответствии с классификацией, предложенной А. А. Зализняком.

Для пополнения Викисловаря создан обширный список литературы, в Английском Викисловаре выработаны правила по включению термина в словарь (см. Criteria for inclusion). В отличие от русской Википедии, где приоритет при подборе материала отдаётся авторитетным источникам[Прим 1], в русском Викисловаре превалирует проведённый редактором статьи анализ словоупотребления[Прим 2].

Тезаурус[править | править вики-текст]

Викисловарь содержит следующие семантические отношения: синонимы, антонимы, гиперонимы, гипонимы, согипонимы, холонимы, меронимы, паронимы.

Википедия и Викисловарь[править | править вики-текст]

Викисловарь не включает подробного описания фактов и энциклопедической информации. Тем не менее Викисловарь предоставляет уникальную информацию, отсутствующую в Википедии: словосочетания, поговорки, аббревиатуры, акронимы, описание ошибок правописания, упрощённые/искажённые варианты написания / произнесения слов, спорные случаи употребления, протологизмы, ономатопею, разные стили (напр., разговорный) и предметные области[1]. Таким образом, Википедия и Викисловарь дополняют друг друга.

Викисловарь сходен с Википедией в том, что (1) есть внутренние ссылки на статьи о словах внутри Викисловаря, (2) есть категории, (3) есть интервики, ссылающиеся на статьи о том же слове в иноязычном словаре[1].

Связывание проектов[править | править вики-текст]

Логотип Викисловаря
В Викисловаре есть статья «Викисловарь»

Участникам Википедии рекомендуется добавлять в статьи шаблон «викисловарь» (например, {{викисловарь|Викисловарь}}) для связывания с соответствующей статьёй Викисловаря. Чтобы сделать обратную ссылку на странице Викисловаря, используется шаблон «википедия» (например, {{википедия|Википедия}}).

Применение таких шаблонов позволяет сгладить острые углы проблемы «энциклопедия или словарь» и делает доступ к информации удобнее, поскольку предоставляет ссылку на дополнительную лингвистическую информацию о термине в энциклопедии, и, наоборот, даёт ссылку на глубокое описание значения слова в словаре, в целом улучшая «связность» статей в проектах Фонда Викимедиа.

Если требуется указать ссылку на определение слова непосредственно в тексте статьи (шаблон «викисловарь» добавляет целый блок), используются межпроектные интервики-ссылки, которые задаются следующим образом: [[wikt:ru:слово|слово]] или более коротко [[:wikt:слово|]] и выглядят так: слово.

Русскоязычный раздел[править | править вики-текст]

Динамика развития русского Викисловаря[править | править вики-текст]

Русский раздел Wiktionary был создан весной 2004 года. На протяжении полутора лет он практически не развивался, пополняясь бессистемно, преимущественно недоброкачественным материалом. Ситуация начала меняться в конце 2005 — начале 2006 годов.

В 2006 году был назначен первый администратор, объём статей увеличился почти в четыре раза по сравнению с предыдущим годом, создан мощный инструментарий для описания морфологии, начала формироваться развитая система семантических категорий.

К осени 2006 года число статей в русском Викисловаре достигло 10 000; затем, благодаря созданию бота, использующего словники других разделов Wiktionary для генерации статей-болванок в русском разделе, за полтора месяца было добавлено ещё около 70 000 статей. 7 ноября 2006 года Викисловарь преодолел отметку 80 000, а 10 декабря 2006 года был взят рубеж в 100 000 статей. 21 марта 2009 года количество статей выросло до 200 000. Число активных участников составило порядка 20.

В отличие от ситуации с традиционными словарями полнота Викисловаря не может быть адекватно оценена по формальному показателю количества статей. Автоматический счётчик не делает различий между полупустыми болванками и по-настоящему информативными статьями, кроме того, он не учитывает внутриязыковую и межъязыковую омонимию. К примеру, словарный вход бор числится как одна статья, между тем в этой статье описано несколько омонимичных лексем русского языка, а также одноименные лексемы других языков (болгарского, татарского), — в традиционных словарях этот материал был бы оформлен и учтён в виде нескольких статей.

Сравнение с другими Викисловарями[править | править вики-текст]

Число русских слов в Русском Викисловаре (слева) и в Английском Викисловаре (справа)[2], данные на 2011 год

Начиная с августа 2008 года русский Викисловарь вышел на первое место по размеру базы данных среди всех викисловарей[3]. В то же время, количество статей в русском Викисловаре не самое большое[4]. Это отчасти объясняется тем, что у проектов, в которых статей больше, чем в русском Викисловаре, статьи могут иметь в среднем меньший размер, в чём можно убедиться на сайте статистики[5]. Кроме того, русский Викисловарь по сравнению с другими разделами Wiktionary содержит большее количество вспомогательной информации, включая справочные таблицы, списки частотных слов и т. п. (в отличие от словарных статей, составляющих так называемое основное пространство имён, такая информация размещается в разделах «Приложения», «Индексы» и т. п.). Значительное количество статей в русском Викисловаре всё ещё являются болванками, сгенерированными ботами. Хотя иногда и можно встретить критику большого количества статей-болванок, такая предварительная разметка даёт много преимуществ. Во-первых, она помогает быстрее создавать статьи за счёт предварительного включения некоторой информации, типа части речи описываемого слова. Во-вторых, структура статей стандартизируется. За счёт повсеместного применения шаблонов (которые обычно сразу проставляются ботами при автоматическом создании статей) возникает возможность централизованно менять внешний вид сразу многих статей. Наличие большого количества шаблонов также помогает проводить дальнейшее автоматизированное редактирование уже созданных статей — например, автоматически проставлять перевод по заранее подготовленным словарям (так как ботам легче ориентироваться в структуре статьи, уже размеченной специализированными конструкциями, а не человеческим языком). Отличительной особенностью русского Викисловаря является проработанная концепция развития (которую можно найти на главной странице). Из-за проработанной концепции и широкого применения шаблонов, статьи в русском Викисловаре выглядят более однотипно, чем во многих других проектах (в основном одинаковы количество разделов, порядок их следования, оформление каждого раздела).

Авторами [2] было подсчитано число словарных статей о русских словах, число статей с толкованиями и без них — в двух Викисловарях (на иллюстрации). Политика редакторов Английского Викисловаря (не создавать статей-заготовок) подтвердилась: словарных статей о русских словах без толкований всего 5,57 %. В Русском Викисловаре таких статей — 60,39 %. Однако в Русском Викисловаре (по данным на 2011 год) почти в 3.4 раза больше словарных статей с толкованиями для русских слов, чем в Английском Викисловаре: 53.6 тысячи против 15.7 тысяч.

Применение викисловарей в задачах автоматической обработки текста и речи[править | править вики-текст]

Для использования лексикографических данных викисловарей при решении задач автоматической обработки текста и речи — необходимо преобразовать тексты словарных статей (слабоструктурированные данные[6]) в машиночитаемый формат[7][8][9].

Извлечение данных из викисловарей является непростой задачей. Можно выделить следующие трудности[10]: (1) регулярное и частое изменение как данных, так и самой структуры статей, (2) разные викисловари имеют различную структуру и формат статей[Прим 3], (3) технология вики изначально ориентирована на удобство работы человека, а не на машинную обработку.

Существует несколько парсеров для разных викисловарей[11]:

  • DBpedia Wiktionary — одно из расширений проекта DBpedia, данные извлекаются из Английского, Французского, Немецкого и Русского Викисловарей. Извлекаются: язык, часть речи, толкование, семантические отношения, переводы. Для извлечения данных используются: декларативное описание структуры словарной статьи[12], регулярные выражения[13] и FST-разновидность конечного автомата[14].
  • JWKTL (Java Wiktionary Library) — API к данным Английского и Немецкого Викисловарей[15]. Извлекаются: язык, часть речи, толкование, цитаты, семантические отношения, этимология и переводы. Программа доступна для некоммерческого использования.
  • wikokit — парсер Английского и Русского Викисловарей[16]. Извлекаются: язык, часть речи, толкование, цитаты[17] (только для Русского Викисловаря), семантические отношения[18] и переводы. Исходный код программы доступен на условиях открытой мульти-лицензии.

С помощью викисловарей решаются разнообразные задачи, связанные с обработкой текста и речи[19]:

  • машинный перевод на основе правил между нидерландским и языком африкаанс; используются данные Английского и Нидерландского Викисловарей и двух википедий в рамках системы Apertium[20];
  • создание машиночитаемого словаря парсером NULEX, интегрирующего открытые лингвистические ресурсы: Английский Викисловарь, WordNet и VerbNet[21]. Для существительного из Английского Викисловаря извлекались часть речи и форма множественного числа, для глаголов — время. Для извлечения данных из Викисловаря использовалась методика Screen scraping;
  • распознавание и синтез речи, где Викисловарь выступает в роли источника данных для автоматического построения словаря произношений[22]. Извлекаются пары слово-произношение (транскрипция в системе МФА) из Чешского, Английского, Французского, Немецкого, Польского и Испанского Викисловарей[Прим 4]. При проверке самое большое число ошибок оказалось в транскрипциях, извлечённых из Английского Викисловаря[23];
  • построение онтологий[24] и баз знаний[25];
  • отображение онтологий[26];
  • упрощение текста. В работе [27] выполняется оценка сложности слов на основе данных Викисловаря. Для слова из Английского Викисловаря извлекаются: размер словарной статьи, число частей речи, число значений и число переводов. Авторы[27] предположили, что более простыми, базовыми, употребимыми будут те слова, у которых больше значений (то есть размер статьи будет больше), больше частей речи и больше переводов. Далее найденные в тексте «сложные» слова необходимо перефразировать, найти более «простые» эквиваленты, что приведёт к упрощению (адаптации) текста;
  • частеречная разметка. В работе (Ли и др., 2012)[28] на основе данных Английского Викисловаря построены POS-tagger’ы для восьми языков, имеющих «бедные лингвистические ресурсы», с использованием скрытых марковских моделей.[Прим 5]
  • анализ тональности текста[29].

См. также[править | править вики-текст]

Комментарии[править | править вики-текст]

  1. Википедия:Авторитетные источники

    Статьи в Википедии должны основываться на опубликованных авторитетных источниках.

  2. Викисловарь: Лексикографическая концепция

    При наличии разногласий относительно каких-либо описываемых свойств какой-либо языковой единицы приоритет (с точки зрения доказательности) отдаётся корпусным источникам.

  3. Сравните, например, структуру и правила оформления статей в Английском Викисловаре и Русском Викисловаре.
  4. Если в словарной статье несколько транскрипций, то берётся первая.
  5. Исходный код программы и результаты частеречной разметки доступны онлайн: https://code.google.com/p/wikily-supervised-pos-tagger

Примечания[править | править вики-текст]

Литература[править | править вики-текст]

  • Li S., Graça J. V., Taskar B. Wiki-ly supervised part-of-speech tagging : Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. — Jeju Island, Korea: Association for Computational Linguistics, 2012. — С. 1389-1398.
  • McFate C., Forbus K. NULEX: An Open-License Broad Coverage Lexicon // The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Proceedings of the Conference, 19-24 June, 2011, Portland, Oregon, USA - Short Papers. — The Association for Computer Linguistics, 2011. — С. 363-367. — ISBN 978-1-932432-88-6.

Ссылки[править | править вики-текст]