Все госты и снипы онлайн

Более 10000 документов в открытом доступе, абсолютно бесплатно

ГОСТ Р - 7.0.91-2015 Система стандартов по информации, библиотечному и издательскому делу. Тезаурусы для информационного поиска

Этот документ был распознан автоматически. В блоке справа Вы можете найти скан-копию. Мы работаем над ручным распознаванием документов, однако это титанический труд и на него уходит очень много времени. Если Вы хотите помочь нам и ускорить обработку документов, Вы всегда можете сделать это, пожертвовав нам небольшую сумму денег.

Файлы для печати:

ФЕДЕРАЛЬНО Е АГЕНТСТВО ПО ТЕХНИЧЕСКОМ У РЕГУЛИРОВАНИЮ И МЕТРОЛОГИИН А Ц И О Н А Л Ь Н Ы Й ГО С Т РС Т А Н Д А Р Т 7 .0 .9 1 -Р О С С И Й С К О ЙФ Е Д Е Р А Ц И И 2015 (ИСО 25964-1:2011) Система стандартов по информации, библиотечному и издательскому делу ТЕЗАУРУСЫ ДЛЯ ИНФОРМ АЦИОННОГО ПОИСКА(ISO 25964-1:2011, MOD) И здание о ф и ц и а л ьн о е С тад*рпш ф «чм 201*узк
ГОСТ Р 7.0.91— 2015Предисловие 1 ПОДГОТОВЛЕН Федеральным государственным бюджетным учреждением науки Всероссий­ ским институтом научной и технической информации Российской академии наук (ВИНИТИ РАН) на основе собственного аутентичного перевода на русский язык англоязычной версии международного стандарта, указанного в пункте 4 2 ВНЕСЕН Техническим комитетом по стандартизации ТК 191 «Научно-техническая информация, библиотечное и издательское дело» 3 УТВЕРЖ ДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому ре­ гулированию и метрологии от 15 декабря 2015 г. Nq 2163-ст 4 Настоящий стандарт является модифицированным по отнош ению к международному стандарту ИСО 25964-1:2011 «Информация и документация. Тезаурусы и их совместимость с другими словарями. Часть 1. Тезаурусы для информационного поиска» (ISO 25964-1:2011 «Information and docum entation — Thesauri and interoperability with other vocabularies — Part 1. Thesauri for inform atkjn retrieval», MOD). При этом дополнительные показатели и требования, включенные в текст стандарта для учета потребностей экономики Российской Федерации выделены подчеркиванием. В настоящий стандарт не включены гра­ фы таблицы 2, содержащие сокращения на немецком, датском, финском, норвежском, шведском и ис­ панском языках, поскольку они не применяются в практике национальной стандартизации и инф орма­ тики. Не включены также информационные приложения и предметный указатель. Поскольку вопросы построения многоязычных тезаурусов регулирует ГОСТ 7.24— 2007. раздел 9 и подразделы 12.3 и 12.4 исключены из настоящего стандарта. Наименование настоящего стандарта изменено относительно наименования указанного между­ народного стандарта для приведения в соответствие с ГОСТ Р 1.5— 2004 (пункт 3.5) 5 ВВЕДЕН ВПЕРВЫЕПравила применения наст оящ его стандарта установлены в ГОСТ Р 1.0— 2012 (раздел 8).Инф ормация об изм енениях к наст оящ ему ст андарт у публикует ся в ежегодном (по состоянию на1 января т екущего года) информационном указат еле «Национальные ст андарт ы», а официальныйт екст изменений и поправок — в ежемесячном информационном указателе «Национальныестандарты» . В случае пересмот ра (замены) или от мены наст оящ его стандарта соответствующееуведомление будет опубликовано в ближайшем выпуске ежсмесяч>юго информационного указателя«Национальные стандарты». Соответствующая информация, уведомление и т екст ы размещают сят акже в информационной системе общего пользованияна оф ициальном сайт е Федеральногоагентства по т ехническому регулированию и мет рологии в сети Интернет (www.gost.ru)© Стандартинформ. 2016 Настоящий стандарт не может быть полностью или частично воспроизведен, тиражирован и рас­ пространен в качестве официального издания без разрешения Федерального агентства по техническо­ му регулированию и метрологии II
ГОСТ Р 7.0.91— 2015Содержание 1 Область прим енения.................................................................................................................................................... 1 2 Термины и опред ел ен и я............................................................................................................................................. 1 3 Символы, сокращения и условные о б о з н а ч е н и я ............................................................................................... 9 4 Тезаурусы. Обзор и назн аче н ие............................................................................................................................. 12 5 Понятия и объем их значения в т е з а у р у с е ......................................................................................................... 14 6 Термины т е з а у р у с а ................................................................................... 17 7 Сложные понятия....................................................................................... 30 8 О тношения эквивалентности в одноязычном к о н т е к с т е ................................................................................ 37 9 М ежъязыковая экв и ва л е н тн о сть...........................................................................................................................42 10 Отношения понятий................................................................................................................................................. 42 11 Фасетный а н а л и з ...................................................................................................................................................... 50 12 Представление и оформление те за у р у с а ......................................................................................................... 51 13 Управление разработкой и ведением тезауруса..............................................................................................61 14 Указания по программному обеспечению для ведения т е з а у р у с а ............................................................70 15 Модель д а н н ы х ........................................................................................................................................................ 74 16 Интеграция тезаурусов с прилож ениям и........................................................................................................... 85 17 Обменные ф о р м а т ы ............................................................................................................................................... 88 18 П р о то ко л ы ................................................................................................ 89 19 Б и б л и о гр а ф и я .......................................................................................................................................................... 91
ГОСТ Р 7.0.91— 2015(ИСО 25964-1:2011) Н А Ц И О Н А Л Ь Н Ы Й С Т А Н Д А Р Т Р О С С И Й С К О Й Ф Е Д Е Р А Ц И И Система ста н д а р то в п о и н ф ор м ац и и , б и б л и о те ч н о м у и и зд а те л ь с ко м у д ел у ТЕЗАУРУСЫ Д ЛЯ И НФ О РМ АЦИОННО ГО ПОИСКА System of standards for information, librarianship and publishing. Thesauri for information retrieval Дата введения — 2016—07—011 Область применения В настоящем стандарте установлены рекомендации, касающиеся развития и ведения инфор­ мационно-поисковых тезаурусов. Эти рекомендации могут быть применены и к другим словарям, ис­ пользуемым в процессе информационного поиска во всех типах информационных ресурсов. При этом возможность такого применения не зависит от типа средств, используемых при передаче информации (текст, звук, неподвижный или движущийся образ, физический или мультимедийный объект), включая базы знаний, порталы, базы библиографических данных, тексты, музейные или мультимедийные кол­ лекции в целом и входящие в их состав самостоятельные единицы. В этом стандарте даются рекомендации, касающиеся развития и ведения информационно-по­ исковых тезаурусов. Эти рекомендации могут быть применены и к другим словарям, используемым в процессе информационного поиска во всех типах информационных ресурсов. Сферой применения настоящего стандарта являются как одноязычные, так и многоязычные те­ заурусы. В сферу действия настоящего стандарта не входит подготовка указателей, помещаемых в конце изданий, однако некоторые из предлагаемых настоящим стандартом рекомендаций могут быть исполь­ зованы и для этой цели. Хотя рекомендации настоящего стандарта не предназначены для создания баз данных или про­ граммного обеспечения, используемого непосредственно в процессе поиска или индексирования, од­ нако содержащиеся в данном стандарте рекомендации по вопросам тезаурусного менеджмента пред­ полагают возможность разработки таких приложений.2 Термины и определения В настоящем стандарте применены следующие термины с соответствующими определениями: 2.1 кл а с с и ф и ка ц и о н н ы й ряд (array): Группа соподчиненных понятий (2.52).ПримерСоподчиненные понятия яouterwear» (верхняя одежда) и «underwear» (нижняя одежда)вместе с понятием вclothing» (одежда) формируют классификационный ряд:clothingодеждаouterwearверхняя одеждаovercoatsпальтоunderwearнижняя одежда 2.2 а с с о ц и а т и в н ы е отн ош ен и я (associative relationship): Отношения внутри пары понятий (2.11), которые не связаны иерархически, однако имеют сильную смысловую связь. 2.3 в ы ш е с то я щ и й тер м ин (broader term): Дескриптор (2.45). обозначающий более широкое по­ нятие (2.11), чем обозначаемое данным дескриптором. П р и м е ч а н и е — Тематическая область более узкого понятия целиком находится внутри тематической области более широкого понятия. Отношения между этими двумя понятиями обычно обозначается меткой ВТ. Бо­ лее подробные объяснения см. в 10.2.1. Издание официальное 1
ГОСТ Р 7.0.91— 2015 2.4 о с н о в а н и е д ел е н и я (characteristic of division): Признак, по которому понятие (2.11) может раз­ деляться на ряд (2.1) болео узких понятий (2.21), каждое из которых имеет значение этого признака, отличное от других. П р и м е ч а н и е — Ср. фасетный анализ (2.21), узловая метка (2.38).ПримерВозрастная группа является основанием деления понятия «люди»:люди(по возрасту)детимолодежьвзрослые. 2.5 кл а с с и ф и ка ц и я (classification), к л а с с и ф и ц и р о в а н и е (classifying): Деятельность, подразуме­ вающая объединение сходных и родственных объектов вместе; разъединение несходных и не имею­ щих родства объектов; и представление результирующих групп в логической и удобной последователь­ ности. 2.6 кл а с с и ф и ка ц и о н н а я схема (classification scheme): Таблица (2.49) понятий (2.11) и предкоор- динированных комбинаций понятий (2.11), организованная классификацией (2.5). П р и м е ч а н и е — В состав классификационной схемы часто входят также указатели понятий. 2.7 т е р м и н -н е о л о ги зм (coined term): Новый термин (2.61). созданный для выражения понятия (2.11), для которого в соответствующем язы ке не существует подходящего термина (2.61). П р и м е ч а н и е — Более подробные объяснения см. в 6.6.5 и 8.3.3.3. 2.8 сл о ж н а я э кв и в а л е н тн о с т ь (compound equivalence): Отношение или соответствие, в рамках которого один термин (2.61) или понятие (2.11) одного контекста представлено двумя или более терми­ нами (2.61) или понятиями (2.11) в другом контексте. 2.9 с о с т а в н о й тер м ин (compound term): Термин (2.61). который в соответствие с морфологиче­ скими законами может быть разложен на самостоятельные отдельные компоненты.Примеры1 В английском языке:«Copper mine» можно расщепить на «сорре» и «mines»; «lawnmowers» можно расщепить на кlawns» и «mower»2 Во французском языке:«mine de cuivre» можно расщепить на кmine» и «гcuivre»; «biodiversite» можно расщепить на «biologie» и «diversite».2 В дуссдам языке;«медные шахты» можно расщепить на «медь» и «шахты»; «биоразнообразие» можно расщепить на «биология» и «разнообразие». П р и м е ч а н и е — Составной термин может состоять как из нескольких слов, так и из одного слова. 2.10 ко м п ь ю те р н о е пр и л о ж е н и е (com puter application): Компьютерная программа или набор компьютерных программ, с помощью которых осуществляется обработка данных высокого уровня в соответствии с определенными потребностями пользователя. П р и м е ч а н и е — В настоящемстандарте компьютерное приложение часто называют просто «приложение». 2.11 п о н я ти е (concept): Единица мысли. П р и м е ч а н и е — Понятия часто имеют несколько разных способов выражения. Они существуют в со­ знании в виде абстрактных единиц, которые независимы от терминов, используемых для их выражения. Они ва­ рьируют в широком диапазоне от очень простых понятий, например, «ребенок*, до очень сложных, например, «законодательство о защите детей». 2.12 ко н т р о л ь н ы й с л о в а р ь (controlled vocabulary): Рекомендуемый список терминов (2.61), ру­ брик или кодов, каждый из которых представляет понятие (2.11). П р и м е ч а н и е — Контрольные словари проектируются для приложений, в которых полезно идентифи­ цировать каждое понятие с помощью одной и той же (постоянной) рубрики, когда проводят классифицирование, индексирование и/или поиск документов. 2
ГОСТ Р 7.0.91— 2015 2.13 м е ж ъ я зы ко в а я э кв и в а л е н тн о с т ь (cross-language equivalence): Отношение эквивалентно­ сти (2.18) между терминами (2.61). представляющими одно и то ж е понятие (2.11) в различных языках. 2.14 м о д е л ь д а н н ы х (data model): Абстрактная модель, описывающая то. как данные представ­ ляются и используются. П р и м е ч а н и е — Модель данных в настоящем стандарте обеспечивает общее определение структуры и семантики тезауруса. Она может быть использована в качестве основы для определения либо модели базы дан­ ных. либо обменного формата тезаурусов. 2.15 д о к у м е н т (d o cum e nt): Любой ресурс, который может быть классифицирован или индекси­ рован для того, чтобы стал возможным поиск содержащихся в нем данных или информации. П р и м е ч а н и е — Это определение распространяется не только на материалы, написанные и отпеча­ танные на бумажном носителе или представленные в виде микрофильма (обычные книги, журналы, диаграммы, карты), но и на непечатные способы передачи информации. Например, такие как машиночитаемые носители и оцифрованные записи, ресурсы Интернета и интранета, фильмы, звукозаписи, люди и организации как носители научных знаний, здания (buildings), местности, монументы, трехмерные объекты действительности, а также собра­ ния и составные части таких единиц. 2.16 в х о д н о й тер м ин , вводящий термин (entry term, lead-in term): Термин (2.61), представленный в контрольном словаре (2.12). но используемый не непосредственно в качестве метаданных (2.33). а для того, чтобы привести пользователя к другому термину (2.61). имеющему статус либо категориаль­ ной метки, либо предметного заголовка, либо дескриптора (2.45). П р и м е ч а н и е — Входной термин в составе тезауруса обычно трактуется как не предпочтительный тер­ мин. или аскриптор. 2.17 э кв и ва л е н тн о е отобр аж ен и е (equivalence mapping): Соответствие, фиксирующее некото­ рое понятие (2.11) в целевом словаре (target vocabulary), которое признается идентичным по объему понятию (2.11) исходного словаря (source vocabulary). П р и м е ч а н и е — См. отношение эквивалентности (2.18). 2.18 отн ош ен и е э кв и в а л е н тн о с т и (equivalence relationship): О тношение между двумя терминами (2.61) в тезаурусе (2.62), показывающее, что оба эти термина обозначают одно и то же понятие (2.11). П р и м е ч а н и е — В обычном словоупотреблении это термины, являющиеся квазисинонимами и они мо­ гут представлять собой слегка различающиеся понятия. Однако включение в тезаурус устанавливаемого между ними отношения эквивалентности определяет, что оба эти термина рассматриваются как представители одного итого же понятия. Когда в одноязычный или многоязычный тезаурус включены два или более термина одного и того же языка, то один из них выбирается в качестве дескриптора, а другой в качестве аскриптора; а когда два или более таких терминов являются представителями разных языков в многоязычном тезаурусе, каждый из них может выступать как дескриптор в своем собственном языке, и эти отношения принято называть межъязыковой эквивалентностью. 2.19 о б м е н н ы й ф о рм а т (exchange format): Машиночитаемый формат для представления инфор­ мации, предназначенный для облегчения обмена информацией между различными приложениями. П р и м е ч а н и е — Обменный формат для тезауруса часто использует язык разметки, например, на основе стандарта XML (Extensible Markup Language) (63. 64, 65. 66] и основывается на модели данных тезауруса. Если модель данных представляет собой общее описание структуры и семантики тезауруса, то обменный формат вы­ ражает это на формальном языке для задачи обмена тезаурусами. 2.20 ф асет (facet): Группа однородных понятий (2.11) одной и той же природной категории.Примеры1 Животные, мыши, нарциссы и бактерии могут рассматриваться как члены фасета живыхорганизмов.2 Копание, писание и кипячение могут рассматриваться как члены фасета действий. 3 Париж, Великобритания и Альпы могут рассматриваться как члены фасета территорий. П р и м е ч а н и я 1 Примерами таких категорий высокого уровня, которые могут быть использованы для группировки понятий в фасеты, являются следующие категории: предмет, материал, действующий агент, действие, место и время. 2 Ср. узловая метка (2.38). 3
ГОСТ Р 7.0.91— 2015 2.21 ф а сетны й анализ (facet analysis): Выявление в предметной области входящих в ее состав понятий (2.11). сгруппированных в фасеты (2.20). и подразделение понятий (2.11) на более узкие по­ нятия (2.11) на основе специальных оснований деления (2.4). 2.22 ф а сетны й и н д и ка то р (facet indicator): Элемент классификационного индекса, который ука­ зывает начало нового фасета (2.20) внутри синтезированного сложного классиф икационного индекса (2.40). П р и м е ч а н и е — Примерами фасетного индикатора могут служить 0 в десятичной классификации Дьюи, скобки и кавычки в УДК. В прошлом термин «фасетный индикатор» использовался как синоним для термина «узло­ вая метка», но во избежание путаницы в настоящем стандарте такое использование запрещено. 2.23 иер архи че ски е отн ош ен и я (hierarchical relationship): Отношение между двумя понятиями (2.11). при котором объем одного из них полностью находится внутри объема другого. П р и м е ч а н и е — Существует несколько разных типов иерархических отношений. Более подробно об этом см. в 10.2. См. также вышестоящий (родовой) дескриптор (2.3). нижестоящий (видовой) дескриптор (2.37). 2.24 о м огра ф (homograph): Одно, два или более слов, которые пишутся одинаково, но имеют разное значение.Примеры1 В английском языке:Слово «bank» может означать и «финансовый институт», и «берег реки».2 Во французском языке:Слово «avocat» может означать либо юриста, либо фрукт.2 АДУССДОМ ЯЗЫКЕСаган ддга аимшд аиааашкдибй дастенив, ли fa amama. П р и м е ч а н и е — Омографы иногда называют омонимами, хотя последний термин имеет более широкое значение, поскольку включает амофоны. т.е. такие пары терминов как «weights» и «waits* в английском, «тег» и «т&ге» во французском или «код» и «кот» в русском языке, которые пишутся по-разному, а читаются одинаково. 2.25 и д е н ти ф и катор (identifier): Набор знаков, обычно алфавитно-цифровых, обозначающий по­ нятие (2.11). термин (2.61) или какую-то другую сущность, используемый, особенно в компьютерных системах или сетях, для достижения однозначной идентификации внутри определенного контекста или ресурса. П р и м е ч а н и е — Иногда в качестве идентификатора используется классификационный индекс. 2.26 и н д е кс н ы й тер м ин (index term): Термин (2.61) приписанный документу (2.15) в процессе индексирования (2.27). П р и м е ч а н и е — Иногда индексные термины называют терминами индексирования, ключевыми словами или метками. Но два последних термина являются многозначными. В качестве индексных терминов часто исполь­ зуют дескрипторы тезаурусов. 2.27 и н д е кси р о в а н и е (indexing): Интеллектуальный анализ предметного содержания документа (2.15) для идентификации представленных в нем понятий (2.11) и предоставление соответствующих индексных терминов (2.26) для обеспечения поиска информации. П р и м е ч а н и е — Для обозначения этого понятия используется термин «предметное индексирование (предметизация)», но поскольку в настоящем стандарте индексирование таких элементов как имена авторов, даты не рассматриваются, достаточно использовать термин «индексирование». Индексирование может осуществляться как пользователями-людьми, так и в автоматическом режиме. 2.28 и н ф о р м а ц и о н н ы й п о и с к (information retrieval): Все методы и процессы, используемые для того, чтобы выбрать из документной коллекции или сети информационных ресурсов документы (2.15), релевантные информационным потребностям. П р и м е ч а н и е — Это определение включает подбор и исключение документов из выборки, а также их просмотр и другие формы отыскания информации. 2.29 с о в м е с ти м о с ть (interoperability): Способность двух или более систем или компьютеров об­ мениваться информацией и использовать информацию, полученную в результате такого обмена. П р и м е ч а н и е — Словари могут поддерживать совместимость путем включения связей с другими слова­ рями. представления информации в стандартных форматах и путем использования систем, которые поддержива­ ют общие компьютерные протоколы. 4
ГОСТ Р 7.0.91— 2015 2.30 з а и м с тв о в а н н ы й тер м ин (loan term ): Термин (2.61). взятый из другого языка и принятый заимствующим языком.Примеры1 «glasnost»русский термин, который принят в английском языке;2 вgourmet»французский термин, который принят в английском языке; 2 шомпьютевх — английский термин, натааый пиинят в дуссаси ваше. 2.31 ра зм етка (markup): Примечания или какой-либо другой вид кодов, включенных в текст в со­ ответствии с правилами языка разметки (2.32). 2.32 я з ы к р а зм отки (markup language): Набор правил кодирования, которые могут бы ть исполь­ зованы для составления инструкций по интерпретации текста за счет использования примечаний, вклю­ ченных непосредственно в сам текст. П р и м е ч а н и е — Интерпретация касается таких вопросов, как содержание, структура и представление текста. Широко используемые примеры включают HTML (Hipertext Markup Language) (59]. который в основном ка­ сается представления, и XML (Extensible Markup Language) (61.62. 63, 64) и указывает структуру текста. 2.33 м е та д а нн ы е (metadata): Данные, которые идентифицируют атрибуты документа (2.15), для которых типичным является поддержка функций размещения, доступа, документирования, оценки и/ или выбора. П р и м е ч а н и е — Дескрипторы и классификационные индексы, выбранные в процессе индексирования, применяют в качестве значений метаданных. 2.34 м о н о и е р а р х и че с ка я с т р у к ту р а (monohierarchical structure): Иерархическая организация по­ нятий (2.11) в тезаурусе (2.62) или классиф икационной схеме (2.6), в которой каждое понятие (2.11) может иметь непосредственно над собой только одно вышестоящее понятие (2.11). П р и м е ч а н и е — Ср. полииерархическая структура (2.42).ПримерВ моноиерархической структуре понятие «пианино* не может одновременно причис­лят ься и к клавишным инструментам, и к струнным инструментам; чтобы определить его место вструктуре следует выбрать одну из эт их возможностей. 2.35 м н о го я з ы ч н ы й тезаур ус (multilingual thesaurus): Тезаурус (2.62). в котором термины (2.61) и структура отношений представлены на двух или более естественных языках. 2.36 м н о го с л о в н ы й терм ин (multi-word term): Термин (2.61), состоящий более чем из одного слова. П р и м е ч а н и е — Ср. расщепляемый термин (2.9).Пример — Cost benefit analysis, анализ иен и прибыли. 2.37 ни ж есто ящ и й (в и д о в о й ) д е с к р и п т о р (narrower term): Дескриптор (2.45). представляющий п о н я ти е (2.11). которое по значению уже. чем рассматриваемое понятие. П р и м е ч а н и е — Объем видового дескриптора полностью располагается внутри объема родового де­ скриптора. Отношение видового дескриптора к родовому обозначается меткой NT. а статус родового меткой ВТ. Более подробно см. 10.2.1. 2.38 узло ва я метка, метка узла (node label): Обозначение, проставляемое в иерархическом или классиф икационном указателе для того, чтобы показать, как упорядочены термины. П р и м е ч а н и е — Узловая метка не является ни дескриптором, ни аскриптором. Она включает один из двух видов информации: a) имя фасета, к которому принадлежат следующие за ней термины; b) атрибут или основание деления, с помощью которого отсортирован или сгруппирован классификационный ряд близкородственных терминов. См. примеры в разделе 11. 2.39 а с к р и п т о р (non-preferred term, non-descriptor): Термин (2.61). который не приписывают до­ кументу (2.15), а используют лиш ь в качестве входа в тезаурус (2.62) или как указатель для нахождения заменяющ его дескриптора. П р и м е ч а н и е — Ср. входной термин (2.16) 5
ГОСТ Р 7.0.91— 2015ПримерhoundsпесUSE dogsсм. собака1) П р и м е ч а н и е — В этом примере «hound» и «пес»— асхрипторы, a «dogs» и «собака» — те дескрипто­ ры. которые следует употреблять вместо них. 2.40 к л а с с и ф и ка ц и о н н ы й ко д (индекс) (notation, class code, class number, classmark): Набор зна­ ков. представляющий п о н я ти е (2.11) в структурированном словаре (2.56). особенно в классиф икаци­ онной схеме (2.6).ПримерыКлассификационныйСловарь-источникПонятиекод07.04.4Тезаурус Международной организа­Политикаиразвитиеры бо­ции труда (ILO)ловства622.342 2Десятичная классификация Д ью иДобыча золота373.3.016:51УниверсальнаядесятичнаяКурс математики в начальнойклассификацияшколеSBS XEJ ВБиблиографическаяклассифика­Закон об охране исчезающих видовция БлиссаН40-Н42Международная статистическаяГ nayкомаклассификация болезней и сход­ ных состояний здоровья П р и м е ч а н и е — Классификационный индекс иногда используется для того, чтобы отсортировать или разместить понятия в предопределенном порядке и. по желанию, показать в указателе, каким образом структури­ рованы и сгруппированы компоненты сложных понятий. Классификационный индекс может осуществлять связь между алфавитной и систематической частью тезауруса. В контексте классификационной схемы «понятия» часто именуют «темами», особенно, если они подобно приведенным выше примерам отличаются сложностью. 2.41 па рад и гм а ти че ски е отн о ш е н и я (paradigmatic relationship), априорные отношения (a priori relationship): Отношения между понятиями (2.11). которые им внутренне присущи. П р и м е ч а н и е — Такие отношения приводятся в структурированном словаре вне связи с каким-либо индексированным документом. Более подробное обсуждение вопроса о парадигматических и синтагматических отношениях приведено в 4.3. 2.42 п о л и и е р а р хи че ска я с тр у кту р а (pdyhierarchical structure): Такая иерархическая организа­ ция понятий (2.11) в тезаурусе (2.62) или классиф икационной схеме (2.6), при которой каждое понятие (2.11) может иметь более одного вышестоящего (родового) понятия (2.11).ПримерВ полииерархической структуре понятие «органы (музыкальные инструменты)» мо­жет одновременно причисляться и к клавишным инструментам, и к духовым инструментам. П р и м е ч а н и я 1 Ср. моноиерархическая структура (2.35). 2 В полииерархической структуре единичное понятие может появляться более чем в одном месте иерар­ хической структуры тезауруса. Его атрибуты и связи и особенно нижестоящие и вышестоящие термины остаются неизменными вне зависимости от того, где термин встретился. 2.43 п о с тко о р д и н а ц и я (post-coordination): Комбинирование дескрипторов (2.45) из контрольного словаря (2.12). осуществляемое во время поиска. П р и м е ч а н и е — Ср. предкоординация (2.44).ПримерПосткоординированное поисковое предписание «микроволны AND излучения» можетиспользоваться, чтобы получить документы о микроволновом излучении, когда они были проиндекси­рованы с помощ ью отдельных терминов «микроволны» и «излучения», а не с помощью объединенноготермина. 1) Различие шрифтов дескриптора и аскриптора в этом примере соответствует рекомендациям по представ­ лению их в тезаурусе. 6
ГОСТ Р 7.0.91— 2015 2.44 пред ко орд и м ац и я (pre-coordination): Комбинирование понятий (2.11). классов или терминов (2.61) из контрольного словаря (2.12) во время создания этого словаря или во время использования его для индексирования (2.27) или классифицирования (2.5). П р и м е ч а н и е — Ср. посткоординация (2.43).Примеры1 Класс «Общая теория», когда он находится в составе более широкого класса «музыка», соот­носится только с предкоординированной темой «теория музыки», а не с теорией вообще.2 Предкоординированная цепочка «картонпереработка» может появиться в словаре предмет­ны х рубрик или, если она не была туда включена, то она может быт ь синтезирована индексатором,если окажется необходимой для индексирования конкретного документа. 2.45 д е с к р и п т о р (preferred term, descriptor): Термин (2.61). используемый в тезаурусе для пред­ ставления понятия (2.11) при индексировании (2 .2 7 )4 П р и м е ч а н и я 1 Ср. аскриптор (2.39). 2 Дескриптор — это, как правило, существительное или субстантивное словосочетание. 2.46 пр о то ко л (protocol): Соглашение, которое определяет синтаксис, семантику и синхрониза­ цию процесса коммуникации между двумя компьютерами для обеспечения информационного поиска. 2.47 к в а зи с и н о н и м , неполный синоним (quasi-synonym, near-synonym): Один из двух или более терминов (2.61). значения которых в рамках обычного использования, как правило, рассматриваются как различные, но которые в данном контрольном словаре (2.12) могут рассматриваться в качестве меток для одного и того же понятия (2.11).Примерыdiseases, disordersболезни, недомоганияearthquakes, earth tremors деилетелсе/ШЯ. ДаЙСШаВСДИД СО&ШШП. 2.48 а с с о ц и а т и в н ы й тер м ин (related term): Дескриптор (2.45). обозначающий такое понятие (2.11). которое имеет ассоциативную связь (2.2) с рассматриваемым термином. П р и м е ч а н и е — Отношения между ассоциативными терминами обычно обозначаются меткой RT. Более подробные объяснения см. в 10.3. 2.49 кл а с с и ф и ка ц и о н н а я табл ица (schedule): Совокупность терминов (2.61). классиф икацион­ ных кодов (2.40). заголовков, перекрестных ссылок и лексических примечаний (2.50), которая служит для представления содержания и структуры структурированного словаря (2.56). 2.50 л е кс и ч е с ко е п р им еча ни е (scope note): Запись, которая определяет или уточняет семанти­ ческие границы понятия (2.11) в рамках его использования в с тр у кту р и р о в а н н о м с л ов аре (2.56). П р и м е ч а н и е — Термин, используемый как метка для обозначения понятия, при обычном использо­ вании имеет несколько значений. Лексическое примечание используют для закрепления за ним только одного из таких значений и. где это необходимо, оно отсылает к другим понятиям, которые включены или исключены из объ­ ема уточняемого понятия. 2.51 п о и с к о в ы й тер м ин (search term): Термин (2.61), формирующий поисковый запрос или его часть. П р и м е ч а н и е — В контексте настоящего стандарта поисковые термины обычно выбираются из контро­ лируемого словаря. 2.52 с о п о д ч и н е н н о е п о н я ти е (sibling concept): Одно из двух или более понятий (2.11) с одним и тем же ближайшим вышестоящим понятием (2.11). каждое из которых представлено дескриптором (2.45). Более точное определение дано в [5] «Дескриптор: Лексическая единица, выраженная информативным словом (вербально) или кодом и являющийся именем класса синонимичных или близких по смыслу ключевых слов.» В контексте данного стандарта дескриптор отличается от индексного термина тем. что дескриптор рассма­ тривается как компонент тезауруса. 7
ГОСТ Р 7.0.91— 2015ПримерOuterwear (верхняя одежда) и underwear (нижняя одежда) являют ся дескрипторами, ко­торые обозначают соподчиненные понятия, принадлежащие к одному и тому же классификационномуряду:clothingодеждаouterwearверхняя одеждаovercoatsпальтоunderwearнижняя одежда. 2.53 с о п о д ч и н е н н ы й терм ин {sibling term): Один из двух или более дескрипторов (2.45). имею­ щих один и тот же ближайший вышестоящий (родовой) термин (2.3).Пример — Дескрипт оры chairs (сидения) и tables (столы), являю т ся соподчиненными терминамиодного и того же классификационного ряда, в то время как дескрипторы яfurniture (мебель), armchairs(кресла) и dining tables (обеденные столы») соподчиненными терминами не являют ся:furnitureмебельchairsсиденьяarmchairsкреслаtablesстолыdining tables gfietfgflrtfe/e CfflgПЫ 2.54 и с х о д н ы й я з ы к (s o u rc e la ng uag e): Язык, служащий в качестве отправной точки в процессе перевода или поиска эквивалентов для терминов (2.61). 2.55 с п е ц и ф и ч н о с т ь с л о в а р я (specificity): Способность структурированного словаря (2.56) вы­ разить предмет поиска углубленно и подробно. П р и м е ч а н и е — Более подробное объяснение см. обсуждение специфичности в 8.4 и других местах. 2.56 с т р у к т у р и р о в а н н ы й с л о в а р ь (structured vocabulary): Организованный набор те р м и н о в (2.61) . заголовков и кодов, представляющих понятия (2.11) и их взаимосвязи, которые могут быть ис­ пользованы для поддержки информационного поиска (2.28). П р и м е ч а н и е — Структурированный словарь также может быть использован для других целей. В рамках поиска информации словарь нуждается в сопутствующих правилах, описывающих как следует применять тер­ мины. Вопросы различных типов структурированных словарей, в том числе классификационных схем, словарей предметных рубрик и др.. будут переадресованы к настоящему стандарту. 2.57 с л о в а р ь п р е д м е т н ы х ру б р и к, язык предметных рубрик (subject heading scheme, subject heading language, subject heading list. SHL). Структурированный словарь (2.56). состоящий из терминов (2.61) . доступных для предметного индексирования (2.27). плюс правила для объединения их в предкоординироваиные цепочки терминов (2.61) для индексирования. 2.58 с и н о н и м (synonym): Один из двух или более терминов (2.61). обозначающих одно и то же понятие (2.11).ПримерыВ английском языке:guarantees, warranties heart attack, myocardial infarction HIV, human im munodeficiency virusВо французском языке:schiste, phylladeVIH, virus de I'immunodeficience humainecrise cardiaque, infarctus du myocardeВ русском языке:чахотка, туберкулезВИЧ, вирус иммунодефицита человека кровоизлияние в мозг, инсульт. П р и м е ч а н и е — Сокращение и полная формы термина могут рассматриваться как синонимы. 2.59 си н та гм а ти ч е с ки е о тн ош ен и я, апостериорные отношения (syntagm atic relationship, a poste­ riori relationship): Такие отношения между понятиями (2.11), которые существуют только потому, что эти понятия встретились совместно в индексируемом документе (2.15). 8
ГОСТ Р 7.0.91— 2015 П р и м е ч а н и е — Вне рамок индексируемого документа такие отношения, как правило, не действуют, по­ этому они не входят в структуру тезауруса. Для ознакомления с более полным обсуждением синтагматических и парадигматических отношений см. 4.3. 2.60 цел евой я з ы к (target language): Язык, в котором находится перевод или эквивалент термина (2.61) исходного языка (2.54). 2.61 тер м ин (term): Слово или словосочетание, используемое для обозначения по ня ти я (2.11).ПримерыSchoolsшколыschool uniformшкольная дюомаcosts o f schoolingПЛйШй М ШКОЛУteachingпреподавание. П р и м е ч а н и е — Термины тезауруса могут быть либо дескрипторами, либо аскрилгорами. 2.62 тезаур ус (thesaurus): Контрольный (2.12) структурированный словарь (2.56), в котором по­ нятия (2.11) представлены терминами (2.61), организованными таким образом, что отношения между понятиями (2.11) представлены эксплицитно, и дескрипторы (2.45) снабжены указателями перехода от синонимов (2.58) и квазисинонимов (2.47). П р и м е ч а н и е — Задачей, решаемой тезаурусом, является обеспечение того, чтобы как индексатор, так и пользователь выбирали для представления данного содержания (предмета) один и тот же дескриптор или ком­ бинацию дескрипторов. По этой причине тезаурус оптимизирован так. чтобы стать средством навигации и терми­ нологического покрытия предметной области для человека. 2.63 н а и в ы с ш и й те р м и н (top term. ТТ): Дескриптор (2.45). представляющий понятие (2.11), для которого в тезаурусе (2.62) не существует более широкого понятия. 2.64 у п р а в л е н и е с л о в а р е м (vocabulary control): Словарная работа, проводимая для того, чтобы избежать многозначности и упорядочить форму представления терминов (2.61), а также лимитировать число понятий (2.11) и терминов (2.61), допустимых для использования в процессе индексирования (2.27). П р и м е ч а н и е — Цель управления достигается путем различения омографов так. чтобы каждый из них имел только одно значение, и путем выбора из ряда синонимов или квазисинонимов одного, рекомендуемого для использования при индексировании. Цель этих ограничений состоит в повышении вероятности того, что индекса­ тор при индексировании и пользователь при поиске выберут для обозначения определенного понятия один и тот же термин.3 Символы, сокращения и условные обозначения 3.1 В таблице 1 приведены сокращения, которые используются в англоязычных примерах тезаурусных записей в качестве меток к префиксным терминам и записям. Каждая метка указывает на от­ ношение или функцию термина или записи, следующую за ними. 3.2 В тезаурусах на голландском язы ке без перевода используются те ж е метки, что и в тезауру­ сах на английском языке. 3.3 Сокращения, приведенные в таблице 2 в качестве меток, обрели статус общ епризнанных со­ глашений и встречаются во многих опубликованных тезаурусах. Они имеют мнемоническое значение, но применяются только в отдельных языках. В случае использования нейтральной системы аббревиатур рекомендуется использовать симво­ лы из левого столбца таблицы 1. Т а б л и ц а 1 — Символы и сокращения О п и са н и е С и м вол М етка З н а ч е н и е Описательные SN Лексическое примечание элементы DEF Определение HN Историческая справка 9
ГОСТ Р 7.0.91— 2015Окончание таблицы 1 О п и са н и е С и м вол М е тка З н а ч е н и е Коды SC Предметная область. Классификационный код или индекс группы по­ нятий. относящихся к данной теме С О Классификационный код или индекс понятия Отношения —► USE «Используй». Термин, стоящий после этой метки, является дескрипто­ ром. которым надо заменить аскрилтор. предшествующий этой метке U F «Используй вместо» или «Используется вместо». Термин, стоящий после этой метки, является аскрилтором, для которого предшествую­ щий этой метке термин является дескриптором, употребляемым вместо этого аскриптора USE...+ Два или более дескриптора, стоящие после этой метки, следует исполь­ зовать вместе для того, чтобы представить понятие, предшествующее этой метке UF...+ Аскрилтор. стоящий после этой метки, должен быть представлен комби­ нацией дескрипторов, один из которых предшествует этой метке Т Т Наивысший термин. Предшествующий этой метке дескриптор является самым широким по объему понятием в иерархии, к которой принадле­ жит данное понятие < ВТ Вышестоящий термин. Стоящий после этой метки термин представляет понятие с более широким значением BTG Выше — род. Более широкий теомин. обозначающий класс (оод). в котолый входит данное видовое понятие BTI Выше — множество. Более широкий теомин. обозначающий множество. в которое входит данное понятие ВТР Выше — целое. Более широкий теомин. обозначающий целое, в кото- D o e входит данное понятие в качестве составной части NT Нижестоящий термин. Стоящий после этой метки термин представляет понятие с более конхретным значением NTG Ниже — вид. Более узкий термин, обозначающий подкласс (вид) данного родового понятия NTI Ниже — элемент. Более узкий термин, обозначающий элемент множества. представленного данным понятием NTP Ниже — часть. Более узкий термин, обозначающий составную часть объекта, представленного данным понятием RT Ассоциативный термин. Следующий за этой меткой термин является ассоциативным термином, но не синонимом, не квазисинонимом, не вышестоящим и не нижестоящим термином Т а б л и ц а 2 — Метки на английском языке и их эквиваленты на других языках М е тка иа а н гл и й ско м язы ка М е тка н а ф р а н ц у зс ко м я зы ке М е тка на ки та й ско м я зы ке М о тка н а р у сско м я зы ке SN NE J лп Scope note Note explicative bШ jie Лексическое примечание Note d'empkx USE EM Y см Use EmployerЩ yong Смотри 10
ГОСТ Р 7.0.91— 2015Окончание таблицы 2 Метка на английском языке Метка на французском языке Мети на китайском языхе Метка на русском языке UF ЕР D С Use for Employer pour f td a i СинонимUsed for 3Етр1оуё pour 3 ВТ TG S в Broader term Terme generique Я shu Выше NT TS F н Narrower term Тепле specifiqueИ fen Ниже RT TS С а Related term Terme associ§ ?£ сап Ассоциация BTG TG вр Broader term (generic) Terme generique (g£n6rique) Выше — род BTP TG ВЦ Broader term (partitive) Terme generique (partitif) Выше — целое BTI TG Broader term (instantial) Terme generique (instance) Выше — множество NT TS н в Narrower term (generic) Terme specifique (generique) Ниже — вид NT TS нч Narrower term (partitive) Terme specifique (partitif) Ниже — часть NT TS из Narrower term (instantial) Terme specifique (instance) Ниже — элемент П р и м е ч а н и е — Набор языков в таблице 2 — открытый. Следующие издания этой части ИСО 25964 могут включать дополни тел ьные метки. Для использования в национальном стандарте России из таблицы 2 и с- кточены языки, не являющнеся официальными языками ИСО. 3 Строки курсивом показывают варианты расшифровки меток. ь Французский стандарт AFNOR Z47-100 предлагает метку N A— Note d'application. 3.4 В настоящем стандарте следующие соглашения также используются. Следует обратить вни­ мание. что эти соглашения не являются обязательными для всех тезаурусов. a) Распределение заглавных и прописных букв в дескрипторах совпадает с тем. как это имеет место в полном печатном тексте. Как правило, это означает, что нижний регистр используется во всех случаях, кроме случая использования верхнего регистра в составе сокращений и начальных букв в собственных именах.Примеры 1> animalsживотныеcarsавтомобилиWorld Health OrganizationВсемирная организация здравоохранения b ) Аскрипторы набирают курсивом.ПримерыanimalsfaunaUF faunaUSE animalscarsautomobilesUF automobilesUSE cars 11 В настоящих примерах прямой и курсивный шрифгы терминов применяются в соответствии с рекоменда­ циями насюяшего стандарта по представлению дескрипторов и аскрипторов в тезаурусах. 11
ГОСТ Р 7.0.91— 2015World Health OrganizationWHOUFWHOUSE World Health Organizationживотныефаунас Фаунаавтомобили с автомашинысм автомобилиВсемирная организация здравоохраненияВОЗс ВОЗсм Всемирная организация здравоохранения4 Тезаурусы. Обзор и назначение 4.1 О бщее назначение Основным назначенном тезауруса является обеспечение того, чтобы как при индексировании, так и при поиске были выбраны в качестве отражения одного и того же понятия одни и те же термины. Для достижения этой цели в тезаурусе, во-первых, должны быть заданы все понятия, которые могут быть полезны для обеспечения поиска в данной области. Понятия представляют с помощью терминов, и для каждого понятия одно из таких возможных представлений выбирают в качестве дескриптора (см. 4.2 и 6.6). Во-вторых, тезаурус должен представлять дескрипторы таким образом, чтобы пользователь мог легко идентифицировать тот дескриптор, который ему нужен. Это достигается путем задания отнош е­ ний между терминами и/или понятиями (см. разделы с 8 по 10) и путем использования этих отношений при создании структурированных указателей терминов. При включении в системы поиска или индексирования терминов и отношений тезауруса они могут быть использованы по-разному, в частности: - как средство расширения поиска; - для предложения альтернативных поисковых терминов: - для поддержки кластеризации результатов или других средств совершенствования поиска; - для выявления типичных орфограф ических ошибок; - для поддержки автоматического индексирования. Взаимосвязь терминов, понятий и отношений иллюстрируется на модели данных в разделе 15. Из практических соображений в этой части ИСО 25964 обычно идет речь о «терминах». Но никогда не следует забывать, что целью манипулирования терминами является поддержка поиска обозначаемых ими понятий. 4.2 С л о в а р н ы й к о н т р о л ь и его назначение Процесс принятия решения о предоставлении термину права представлять определенное поня­ тие не всегда является однозначно простым, поскольку понятие часто может быть выражено не одним способом. Более того, в обычном словоупотреблении некоторые термины могут иметь более одного значения. Поэтому словарный контроль является существенным моментом, и тезаурусы применяют для обеспечения однозначности путем использования следующих двух принципиально важных при­ емов. а) Сфера применения понятий и терминов намеренно ограничивают предписанными значениями. В отличие от терминов таких словарей, в которых слова даются в сопровождении целого ряда различ­ ных определений, отражающ их нормативное использование, каждый термин в тезаурусе, как правило, бывает привязан к тому или иному единственному значению, которое наиболее эффективно отражает потребности поисковой системы. Структура тезауруса, особенно представление в указателе иерархи­ ческих отношений, часто указывает на нужное значение термина. Если это ограничение не достаточно очевидно, термин должен быть снабжен лексическим примечанием. Это примечание должно уточнить значение выбранного термина и может также указывать на другие значения, известные в естественном языке, которые были сознательно исключены для целей информационного поиска. б) Если в одном и том же языке одно и то же понятие может быть выражено двумя или более сино­ нимами или кваэисинонимами. то в качестве дескриптора, как правило, выбирают один из этих терми­ нов. который затем последовательно используют в качестве дескриптора в процессе индексирования 12
ГОСТ Р 7.0.91— 2015 как главный или единственный термин, выражающий соответствующее понятие. При этом от любого синонима, который может понадобиться пользователю при обращении к тезаурусу, должна быть дана ссылка на заменяющий его дескриптор. При осуществлении словарного контроля одним из последствий использования мер. описанных в перечислениях а) и Ь) является то, что полученные выражения могут не соответствовать. Тезаурус игра­ ет важную роль в посредничестве между терминами, используемыми в обычном словоупотреблении, и теми терминами, которые эффективно функционируют в процессе поиска информации. Для достиже­ ния эффективности поиска пользователи должны использовать с определенной степенью искусствен­ ности контрольного словаря (хотя в некоторых системах эта трудность может быть преодолена за счет автоматической замены термина пользователя дескриптором). Д ля того чтобы тезаурус мог эффективно функционировать в многоязычном контексте, включае­ мые понятия должны быть представлены во всех используемых языках, обеспечивая доступ носителям этих языков. Если тезаурус является «симметричным», как описано в настоящем стандарте и смоде­ лировано в разделе 15. то для каждого понятия должен существовать дескриптор в каждом из языков, и объем понятий должен быть одинаковым во всех языках. Это ограничение иногда вносит свой вклад в искусственность языка. Альтернативные подходы (например, использование метода сопоставления словарей) будут описаны в следующей версии стандарта [6]. 4.3 П а р ад игм а ти че ски е и си н та гм а ти ч е с ки е отн ош ен и я Целью установления отношений и отображения их в указателе является указание пользователю (или специалисту, действующему от его имени) нужного направления для выбора наиболее подходя­ щего термина, выражающего данное понятие. Это достигается путем демонстрации таких терминов, которые пользователь мог бы выбрать вместо или наряду с терминами, выбранными им изначально. Примеры приведены в разделе 12. В любом языке между терминами индексирования, как правило, наблюдаются отношения следу­ ющих двух видов. a) отношения, называемые синтагматическими, фиксируются в том случае, когда понятия встре­ чаются вместе в контексте конкретного документа. Иными словами, если два или более термина ин­ дексирования приписаны одному и тому же документу, то тем самым между ними установлено синтаг­ матическое отношение. Однако включение синтагматических отношений в тезаурус не рекомендуется.ПримерИндексатор работы о ккомпьютерах в амстердамских банках» может выделить трипонятия, выражаемые, соответственно, терминами «банки (финансовые учреждения)», «компьюте­р ы » и «Амстердам». Он присвоит их этому документу. В посткоординированной системе связь меж­ду этими терминами в метаданных эксплицитно не указывается, но документ, тем не менее, можетбыт ь найден, если лю бой или все эти термины были использованы в качестве поисковых ключей.В предкоординированном указателе любая комбинация эт их трех терминов может быть приведенавместе со ссылкой на то место, где соответствующий документ может быть найден. Понятия изданного примера в рамках обыденных отношений, как правило, никак друг с другом не связаны, поэтомуих взаимосвязь должна рассматриваться как зависящая от документа. b ) парадигматическими называют отношения, которые значимы почти во всех контекстах, осо­ бенно если они внутренне присущи понятиям, которые представлены этими терминами. Наличие па­ радигматических отношений между тезаурусными понятиями продемонстрировать целесообразно, так как они часто ведут пользователей к понятиям, тесно связанным с теми терминами, которые пришли в голову первоначально.ПримерНезависимо от темы индексируемого документа понятия из предыдущего примераимеют такие сущностные связи: «банки (финансовые учреждения)» с более широким понятием «фи­ нансовые институты»; «компьютеры» уст ойчиво ассоциируют связь с понятием «обработка дан­ ных», а понятие «Амстердам» неразрывно связано с понятием «Нидерланды». Найдя в словаре любойиз этих связанных между собой терминов, пользователь может быть заинтересован в информации,заиндексированной с помощью связанного термина. Такие парадигматические отношения не зависятот какого-либо конкретного документа. Они, как правило, распознаются и могут быть установленыблагодаря ссылке на такие обычные издания как словари и энциклопедии. Различие между этими двумя видами отношений может быть отображено так, как показано на рисунке 1. 13
ГОСТ Р 7.0.91— 2015 Парадигматические Нидерланды Финансовые Обработка данных отношения институты терминов/понятий в тезаурусе Амстердам Банки Компьютеры Синтагматические отношения между терминами/понятиями в документе Рисунок 1 — Парадигматические и синтагматические отношения 4.4 Т и п ы па р а д и гм а ти ч е с ки х отн ош ен и й Устанавливают и четко разграничивают три типа парадигматических отношений между терминами (а), либо между понятиями (Ь) и (с): a) отношения эквивалентности, которые применяются в случае как одноязычных, так и многоязыч­ ных ситуаций (см. разделы 8 и 9. соответственно); b ) иерархические отнош ения (см. раздел 10.2); c) ассоциативные отношения (см. раздел 10.3). Дальнейшее деление каждого из этих классов описано в разделах 8 — 10. Каждое из этих отно­ шений должно быть охарактеризовано как симметричное (взаимное), и это должно быть обозначено с помощью системы меток, символов или сокращений, используемых для представления отношений в тезаурусе. В иллюстративных примерах ниже использованы метки, описанные в разделе 3.5 Понятия и объем их значения в тезаурусе 5.1 К о н ц е п ту а л ьн а я о сн о в а 5.1.1 Главная прикладная задача тезауруса — это информационный поиск, целью которого яв­ ляется поиск понятий. Как было разъяснено в 4.1 и 4.2, понятия отображаются терминами. Каждый включенный в тезаурус термин должен отображать одно понятие (или единицу мысли). Понятия могут варьировать от простых (например, «кошки»), д о очень сложны х (например, «расовая дискриминация этнических меньшинств»). Для отображения более сложных понятий, как правило, требуются состав­ ные термины или фразы. Более полное обсуждение этих вопросов представлено в разделе 7. 5.1.2 Включенные в тезаурус понятия могут рассматриваться как принадлежащие к взаимоисклю­ чающим категориям, выявляемым на основе общ их характеристик. Приводимый ниже набор примеров является иллюстративным и не является списком всех возможных категорий. а ) Предметы и их физические части;Примеры1 birdsптицы2 birth certificatesсвидетельства о рождении3 limbsчасти тела4 microformsмикроформы5 monumentsмонументы6 mountain regionsгорные массивы П р и м е ч а н и е — Физические части предметов также являются предметами и могут иметь свои собствен­ ные части. b ) М атериалыПримеры1 adhesivesклеи2 rubberрезина3 titaniumтитан c) Действия и процессы;Примеры1 dressmakingшитье одежды2 fertilizationоплодотворение3 glaciationобледенение4 land managementземлеустройство 14
ГОСТ Р 7.0.91— 2015 d) События и явления:Примеры1 birthdays ttou дажДашш2 c iv il warsгражданские войны3 revolutions дгадлмшш е) Свойства людей, предметов, материалов или действий:Примеры1 consciousnessс ознательность2 elasticityш т и ч и ш п и3 personalityиндивидуальность4 speed 0 Дисциплины или предметные поля:Примеры1 archaeologyархеология2 organic chem istry gflgflfllrtSfififlfl ДЦДЩД3 theologyбогословие д) Единицы измерения:Примеры1 hertzгерц2 kilometersкилометр h) Типы людей и организаций:Примеры1 charitiesблаготворительные учреждения2 childrenдети3 international nongovernmental organizationsмждмаводный мддаашдадшвшшыаорганизации4 nationsнации5 poetsпоэты6 visually impaired peopleпииа с надшедшим зпеиия 5.1.3 Уникальные сущности, обозначаемые с помощью имен собственных, также могут быть включены в тезаурус, при этом их следует использовать только для записей, в которых говорится о дан­ ном человеке, документе или предмете и т. п. Если обозначение некой сущности именем собственным не является темой (предметом) документа, а имеет к документу какое-то другое отношение, например, оно является автором (создателем) документа или входит в состав его названия, то такое имя собствен­ ное не должно стоять в одном ряду с предметными терминами, а должно быть приписано документу в другом месте. Имена собственные также распределяются по категориям подобно понятиям в 5.1.2; а) место.Примеры1 AustraliaАвстралия2 M ilky WayМлечный Путь3 South KensingtonЮжный Кенсингтон4 Sri LankaШри Ланка Ь) специфические объекты, топографические характеристики и другие сущности.Примеры1 Magna CartaВеликая хартия вольностей2 Mona LisaМона Лиза3 Nelson's Column Аельсддд ва калддла4 Romeo and JulietРомео и Джульетта5 SkylabСкайлэб. 15
ГОСТ Р 7.0.91— 2015 с) физические лица, должности и юридические лица (организации),Примеры1 Burns, RobertБернс. Роберт2 United Nations Secretary-GeneralГенеральный секретарь ООН3 World Health OrganizationВсемирная организация здравоохранения. 5.2 Л е кс и ч е с ки е пр им еча ни я Объем понятия, предусмотренный в тезаурусе, не всегда совпадает со значением, ассоциируе­ мым в обычном употреблении с соответствующим дескриптором (или каким-либо из аскрипторов. за­ меняющих этот дескриптор). В тезаурусе контекст, как правило, понимаемый как иерархия вышесто­ ящих и нижестоящих понятий, имеющих связи с рассматриваемым дескриптором, помогает уточнить желаемый объем понятия. Часто удается осуществить подбор такого однозначного дескриптора для определенного понятия, который доносит правильный выбор желаемого объема понятия д о любого пользователя (см. 6.2.2). О днако в тех случаях, когда это сделать не удается, или когда дополнительная информация может внести ясность в вопрос о выборе определенного значения и сделать использо­ вание дескриптора более последовательным, целесообразно использовать поясняющие лексические примечания. Лексические примечания следует использовать для уточнения границ понятия, особенно в тех случаях, когда значение дескриптора в обычном употреблении трактуется как более широкое, или бо­ лее узкое, или когда требуется разграничить такие дескрипторы, значения которых в естественном язы­ ке имеют общ ую часть значения. Лексическое примечание также может быть использовано и для того, чтобы снабдить как индексатора, так и лольэователя-поисковика рекомендациями, обеспечивающими использование одной и той же терминологии. Лексические примечания не должны давать полное опре­ деление, а призваны служить лиш ь разъяснением предполагаемого в тезаурусе использования терми­ на. В тезаурусе отдельно могут быть представлены другие виды примечаний, а именно — определения (см. 6.2.3) и исторические справки (см. 6.2.4). В отличие от квалификаторов, рассматриваемых в 6.2.2, лексические примечания не трактуются как составная часть того термина, к которому это примечание относится.Примеры1 microwave frequencies CfigC4gfclC0«Ufi М Ш И ШSN 1 GHz to 300 GHznn От 1 do 300 ГГи2 illum inationsиллюминацииSN Includes both the ornamental ЛЛ ДШСМДИП «flit ДВЙПЮДЩШШа Ш Щ Щ Щdecoration and the illustrations in Л Ш U Щ Щ Ж ПШ Ш Ш . fi jUflffifltffiffiL fl (П А Ш fimanuscripts, as well as in some earlyишаП1ВВЫ& В Ш Ш Д Ш Ш М Ш Ш Ь . ВШ 1 ShLprinted bucks, if done by handПОЛИВНЫ SBY4HYIQ 5.3 В заи м н ы е л е кс и ч е с ки е пр им еча ни я Когда в примечании дается ссылка на другие понятия, то. как правило, каждое из этих понятий должно быть снабжено взаимным лексическим примечанием.Примеры1 В английском языке:food productsSN Use only fo r products intended for human consumption. For products fo r animals, see pet­ foods o r feeds (Использовать только для продуктов, предназначенных для потреблениячеловеком. Продукты для животных, см. petfoods или feeds),petfoodsSN Food products fo r animals maintained as domestic pets. For products for human consump­ tion. see food products. For products intended fo r non-domestic animals, see feeds (Продуктыпитания для животных, содержащихся в доме. Продукты для потребления человеком см.food products. Продукты, предназначенные для нводомашненных животных, см. feeds),feedsSN Products intended for non-domestic animals. For products for domestic pets, see petfoods.For products fo r human consumption, see food products (Продукты, предназначенные для не-одомашненных животных. Продукты для домашних животных, см. petfoods. Продукты,потребляемые человеком, см. food products). 16
ГОСТ Р 7.0.91— 2015 2 Во французском языке:statistiqueNE Designe la science statistique: po ur les donnees statistiques empoyer "statistiques”statistiques (Обозначает статистику как науку: для статистических данных использо­ вать statistiques).statistiquesNE Designe les donnees statistiques; pour la science statistique, empoyer "statistique" (Обо­значает статистические данные. Д ля статистики как науки использовать statistique).3 В русском языке:пищал п Средства питания человека. Средства кормления животных, см. корм,кормл п Средства кормления животных. Средства питания человека, см. пища. Даже если примечание требуется для уточнения только одного из понятий, все ж е полезно сде­ лать редакционное примечание (см. 15.2.14) в записи каждого дополнительного понятия, где оно упомя­ нуто. Взаимные ссылки употребляются для того, чтобы быть уверенным в том. что при изменении како­ го-либо понятия или при его удалении эти изменения отразятся и на других рассматриваемых понятиях.6 Термины тезауруса 6.1 Ф ор м а терм ина Термины, выбранные для представления понятий, могут быть как однословными, так и много­ словными (см. раздел 7). 6.2 Уточнение и у стр а н е н и е н е о д н о зн а чн о с ти те р м и н о в тезауруса 6.2.1 О бщ ие в о п р о с ы В обычном языковом употреблении единичный термин может иметь более одного значения, и при этом самое востребованное общеязыковое значение не всегда соответствует тому понятию, которое востребовано в тезаурусе. Если контекст, обеспечиваемый иерархией вышестоящего и нижестоящего понятий, связанных с рассматриваемым понятием, недостаточен для выяснения предполагаемого объ­ ема понятия, то следует принять дополнительные меры. Поскольку все термины тезауруса должны быть выражены с наибольшей возможной степенью однозначности, особенно важно сформировать дескриптор для данного понятия таким образом, чтобы он делал понимание выбранного объема до­ ступным для любого пользователя. Например, чтобы многозначный термин «депрессия» в зависимо­ сти от обстоятельств употребления можно было бы интерпретировать как «экономическая депрессия» или «метеорологическая депрессия». Для этого может быть использован квалификатор (см. 6.2.2). В тех случаях, когда это неудобно или недостаточно, или там. где дополнительная информация поможет разъяснить смысл и сделать использование более последовательным, следует сформулировать раз­ вернутое лексическое примечание (см. 5.2). 6.2.2 О м о гр а ф ы и р о л я то р ы (кв а л и ф и ка то р ы ) Омографы (иногда для них используют более широкий термин «омонимы») — это слова, имею­ щие одинаковое написание, но разные значения.ПримерCranes (Этот термин может относиться либо к птицам, либо к грузоподъемномуоборудованию). Если омографы используют в качестве терминов тезауруса, то значение каждого из терминов должно быть уточнено. При этом в качестве традиционного способа уточнения используется добавле­ ние заключенного в скобки релятора. Релятор должен быть как можно короче и в идеале состоять из одного слова. Часто, являясь более широким термином, релятор призван указывать на контекст или предметную область, к которой рассматриваемое понятие относится. Он не является лексическим при­ мечанием. а входит в состав термина (см. п. 5.2).Примерcranes (birds)лебедки (птицы)cranes (lifting equipment)лебедки (подъемные устройства). 17
ГОСТ Р 7.0.91— 2015 Релятор следует добавлять к каждому омографу, даже если в предметной области тезауруса один из его смыслов в большей степени привычен, чем все другие. Например, в английском языке «beams (structures)» — это дескриптор, который принят в инженерном тезаурусе, в который кроме того включен еще и термин «beams (radiation)». Например, во французском языке, «еаи (boisson)» — дескриптор в экологическом словаре, в состав которого входит ещ е и дескриптор «еаи (environnement)». В русском тезаурусе могут одновременно присутствовать дескрипторы «замок (крепость)» и «замок (запор)». Если же один из терминов-омографов используется в специализированном тезаурусе, и его зна­ чение понятно пользователю тезауруса, релятор может быть опущен. Однако следует предусмотреть возможность того, что объем тезауруса в будущем может быть расширен, или что станет необходимым взаимодействие с другими словарями, охватывающими другие области. При применении реляторов термины становятся несколько громоздкими, и поскольку некоторые электронные системы испытывают трудности в их применении, то следует избегать их (особенно в ка­ честве дескрипторов) в тех случаях, когда можно найти другой способ устранения неоднозначности. По этой причине, использование многословного термина (как скоро такая многословная форма существует в естественном языке) предпочтительнее, чем использование однословного термина с релятором.ПримерТермин «industrial plants» следует предпочитать термину «plants (facilities)». Послед­ний термин, однако, может быть введен в качестве аскриптора. Аналогично русский термин «органытела» предпочтительнее, чем яорганы (анатомия)». Заключенные в скобки реляторы не должны использоваться для образования инвертированных форм.ПримерНеправильным является включение в тезаурус инвертированных форм «cookery (fish)»и «pens (fountain)». Вместо них следует использовать термины «fish cookery» (рыбные блюда) и яfoun­ tain pens» (авторучки). В последнем примере «fountain» используется для указания типа ручки, а не дляустранения неоднозначности слова «реп». (См. также 7.7 о порядке слов в многословных терминах). До­ пустимым использованием реляторов с термином «реп» в английском языке являют ся термины «pens(enclosures)»загоны и «pens (writing implements)»средства письма. Правильное использование реля­ торов с термином «audition» во французском языке: «audition (physiologic)» и «audition (communication)».В русском языке: «корпус (тело)», • корпус (изделие)», «корпус (армейский)». В случае сокращений и аббревиатур, которые часто являются омографами, релятором должна служить полная форма термина (см. также 6.6.8). Квалификаторы для акронимов и аббревиатур следу­ ет использовать только тогда, когда их значение пользователями тезауруса признается неоднозначным, т.е., когда у этих форм есть еще одно известное значение или в покрываемой тезаурусом области, или общем языковом употреблении. 6.2.3 О пределения Как правило, для уточнения того, как следует использовать дескриптор, не требуется наличия пол­ ного определения. О днако если по какой-то причине необходимо дать определение, то для него должно быть отведено отдельное поле, чтобы нельзя было спутать определение с лексическим примечанием. При каждом определении должен быть указан источник, из которого оно взято.ПримерChiaroscuroDEF The style o f pictorial art in which only the light and shade are represented (OED)въааошадОовайадаиж. стиль жиаапияи ивпаоьхааишй дадыю. саат и пш иШ Ж . П р и м е ч а н и е — «ОЕО» означает Oxford English Dictionary (vr.44v.oed.cofn). Любая подобная аббревиату­ ра. встречающаяся в тезаурусном определении или лексическом примечании, должна быть объяснена во введе­ нии к тезаурусу (см. 13.4). 6.2.4 И с то р и че с ки е с п р а в ки Изменения терминов, возникающие во время обновления тезауруса, могут оказать влияние на эф ф ективность поиска понятий. В таких случаях может помочь использование исторической справки. Историческая справка должна относиться только к одному дескриптору, аскриптору или понятию. Ею следует пользоваться тогда, когда в тезаурус добавляется новый дескриптор или ж е существующий термин претерпел изменения, которые влияют на объем понятия в разные периоды использования тезауруса. Хотя подобную информацию можно включить в лексическое примечание, предпочтительнее создать историческую справку. Историческая справка может фиксировать дату введения термина или предоставлять более сложные рекомендации относительно того, как искать это ж е понятие на предше­ ствующих и последующих этапах. 18
ГОСТ Р 7.0.91— 2015Примеры1 Microwave ovens (микроволновые печи)HN Concept introduced 1985 (Понятие введено в 1985 г.). 2 Notebook computers (ноутбуки) HN Term introduced 1999; p rio r to that use вlaptop computers» (Термин введен в 1999 г.; ранее исполь­ зовался термин «laptop computers»). 6.3 Грамматически© ф о р м ы те р м и н о в 6.3.1 С у щ е с тв и те л ь н ы е и и м е н н ы е сл о в о со ч е та н и я Тезаурусный термин, как правило, представляет собой имя существительное или именное сло­ восочетание. В частности он может быть выражен отглагольным существительным (герундием), (см. 6.3.4). В английском языке (и в других, таких как немецкий, французский и другие германские и роман­ ские язы ки)1* именные словосочетания встречаются в следующих двух формах: a) В форме определительных словосочетаний (включая те. в которых в функции определения вы­ ступает существительное или притяжательная форма существительного2*).ПримерB u rk itt’s lymphomaлимфома Буркиттаcold fusionхолодная сваркаenvironmental lum inosityокружающая освещенностьstone wallsкаменные стеныtropical diseasesтропические болезни. b ) В форме предложных словосочетаний.Примерaccessories after the fact СОУЧасдиШЦ ПО Ф а к т у (кай&ВНШе!hospitals for childrenбвлш ш иы ДДЯ ДйШаЙ. Предлоги придают термину излишнюю длину и неуклюжесть, поэтому по возможности следует избегать их использования, особенно в качестве дескрипторов. Например, термин «carbohydrate me­ tabolism» следует предпочесть термину «metabolism o f carbohydrates». (Впрочем, последний термин все ещ е мог бы быть принят в качестве аскриптора). В некоторых других языках, например в китайском, предложные фразы отсутствуют, но имеются другие типы субстантивных (номинативных) словосочетаний, которые необходимо использовать в об­ суждаемых случаях. 6.3.2 П ри л агател ьн ы е Прилагательные используются в качестве компонентов именных словосочетаний, но при их ис­ пользовании в качество самостоятельного термина они могут стать причиной возникновения поисковых проблем. Так, поиск статьи по «использованию красных огней как сигналов предупреждения о низких мостах» с помощью таких терминов-прилагательных как «красный» и «низкий» может привести к тому, что мы получим информацию о низких сигналах и/или о красных мостах. По этой причине использование прилагательных в качестве терминов тезауруса следует избегать. Такая ж е осторожность необходима и в применении не только прилагательных, но и адъективных суще­ ствительных. например, «краснота» вместо «красный». Исключения могут бы ть сделаны в случаях наличия веских причин, например, в случае использо­ вания тезауруса для индексирования отчетов о медицинских симптомах, коллекций изображений или других нетекстовых единиц, в которых прилагательные, описывающие внешний вид. могут играть очень важную роль.Примеры1 Ddark redтемно-красный.2 Largeобширный.3 Ovalовальный.4 Smoothгладкий. 1* То же самое относится и к славянским языкам, включая русский. 2* Во всех этих языках наиболее типичны такие именные словосочетания, где в функции определения высту­ пают прилагательные, но в этой функции могут использоваться и другие части речи, в частности существительные в косвенных падежах. 19
ГОСТ Р 7.0.91— 2015 6.3.3 Наречия Такие наречия как «очень» или «сильно» не должны использоваться в качестве терминов теза­ уруса. Словосочетания, начинающиеся с наречия, не допускаются в качестве терминов тезауруса, за исключением того случая, когда этому словосочетанию присваивается особое значение.Примеры1 Very high frequency (сверхвысокие частоты).2 Very large scale integration (интеграция сверхвысокого уровня). 6.3.4 Глаголы В английском и русском языках глаголы, представленные в форме инфинитива или причастия, не должны использоваться в качестве отдельных терминов тезауруса. Однако допустимы термины, пред­ ставленные в форме отглагольного существительного (например, «weaving», «broadcasting», «плете­ ние». «вещание»). Действия следует обозначать существительными или отглагольными существитель­ ными. Для некоторых других языков может быть разрешен и инфинитив, но эти рекомендации должны быть сформулированы так. чтобы они не противоречили общепринятым соглашениям по индексирова­ нию.Примеры1 Cookery o r cooking (не «cook». «to cook», «cooked», etc.)готовка пиш и (не «готовитьпиш у»).2 Distillation (не «distil»)йШ Ш Ш П Ш Ш ше ъдиъаштшяяъатьхи3 Swimming (не «swim»)плавание (не «плавать»!. 6.3.5 А р т и кл и 11 6.3.5.1 Опущение артиклей Как правило, следует избегать использования артиклей, предваряющих термины тезауруса. При необходимости следует использовать релятор, помещенный в скобки.Примеры1 Arts, а не «the arts» (искусство).2 State (political entity), а не «the state» (государство). 6.3.5.2 Сохранение артиклей Если предваряющий артикль является неотъемлемой частью имени собственного и необходим в процессе поиска, то он должен быть включен в состав термина тезауруса в прямом порядке. В других случаях артикль должен быть опущен или термин должен быть представлен в инвертированном виде. Если опущение артикля приводит к неоднозначности, то следует добавить релятор. Считается ли ар ­ тикль неотъемлемой частью имени, зависит от языка и от контекста. В следующих примерах языком тезауруса является английский.ПримерEl Nino Le Havre Los Angeles Needles (Isle o f Wight)The Who (rock m usic group) Если при поиске нужно использовать термин как с артиклем, так и без него, должна быть сделана ссылка от аскриптора.ПримерSalvador (country)USEEl SalvadorThe NeedlesUSENeedles (Isle o f Wight)Who. TheUSEThe Who (rock m usic group). 6.4 П р о п и с н ы е б у к в ы , зн аки пр е п и н а н и я и о с о б ы е с и м в о л ы 6.4.1 П р о п и с н ы е б у к в ы В форме представления терминов тезауруса следует быть последовательным. Настоящий стан­ дарт везде предусматривает нижний регистр, за исключением тех заглавных букв, которые необходимы 1) Правила употребления артиклей для русского языка не имеют значения, поскольку в русском языке нет артиклей. 20
ГОСТ Р 7.0.91— 2015 в именах собственных1*. Поскольку компьютерные технологии более не выдвигают требований по ис­ пользованию только верхнего регистра, то следует использовать только нижний регистр с допущением первых заглавных букв. Исключения могут быть сделаны для сокращений, аббревиатур, собственных имен или терминов, которые принято записывать с использованием особого стиля. В этих случаях должен быть использо­ ван тот стиль, который является наиболее распространенным среди предполагаемых пользователей тезауруса.Примеры1 British Airways Pic.2 ActiveX. 3 DNA. 4 NPK fertilizers. 5 pH. 6 Photocopies. 6.4.2 Н о ал ф а ви тн ы е с и м в о л ы Использование знаков пунктуации, диакритических знаков и других специальных символов могут создают проблемы при вводе терминов, а также во время сортировки и обработки при проведении про­ цедур поиска. Кавычки, скобки, деф исы и числовые символы усложняют реализацию процесса поиска. Использование таких символов должно быть минимизировано, особенно в дескрипторах.ПримерыЗамена специальных символов:1 В английском языке:beta raysвместоP-raysdatabasesвместоdata-basesnonfictionвместоnon-fictionresearch and developmentвместоresearch & development.2 Во французском языке: rayon betaвместоra y o n precherche et developpementвместоrecherche & developpement.3 В русском языке: бета-лучивместоР-лучипятипроцентный растворвместо5%-ный раствор, или 5-процентный растворстереоизображениевместоЗР-изображение. Однако, поскольку нельзя полностью избежать использования неалфавитных символов, они должны быть сохранены там, где терминология может быть двусмысленной, грамматически непра­ вильной и неприемлемой с точки зрения сообщества пользователей тезауруса. Особенно в составе аб­ бревиатур. химических названий, имен собственных, товарных знаков или в случае, если эти термины принадлежат к стандартизированным словарям данной сферы. Для тезаурусов на языках, отличных от английского, часто имеют очень большое значение диакритические знаки.Примеры1 В английском языке:2.4- Dbis(tributyltin) oxideBoyle's lawBurkitt's lymphomaX-rays.2 Во французском языке:2.4- D oxyde de bis(tributyletain).3 В русском языке:п-ментила гидропероксидN-метил-о-толуидинметил(2-тиенил)дихлорсиланампер-час БозеЭйнштейна статистикакритерий / 2. В немецком языке с заглавной буквы начинаются все существительные, которые в этой форме и включают в тезаурус. 21
ГОСТ Р 7.0.91— 2015 Дефисы и знаки диакритики следует сохранять в аскрипторах. если они используются в соста­ ве общ епризнанных орфограф ически правильных вариантов с точки зрения языка, используемого в тезаурусе.ПримерыИспользование специальных знаков в аскрипторах:1 В английском языке:non-fictionUSEnonfictionresumesUSEresumes.2 Во французском языке:contre-marcheЕМcontremarchecontre-plaqueЕМcontreplaque.принцип д'Аламберасм.принцип Даламбера2-бутанонсм.метилэтилкетонтимолфталексон Sсм.метиловый синий. По возможности (но не в наименованиях химических веществ, а в других случаях, где они образу­ ют неотъемлемую часть термина) скобки должны употребляться только в реляторах. 6.4.3 И н о я з ы ч н ы е а л ф а ви ты Если в тезаурусе для записи терминов применяют буквы различных алфавитов, то для каждого алфавита должен быть принят свой шрифт, позволяющий однозначно идентифицировать буквы, по на­ чертанию сходные с буквами других алфавитов. В предисловии тезауруса необходимо указать, какой шрифт применяется для каждого алфавита. В русскоязычных тезаурусах для букв русского алфавита целесообразно использовать обычный шрифт, для латинских букв, например. — полужирный шрифт, а для греческих — полужирный с подчеркиванием.ПримерыI P t s s m t б у д е мАвЕКм О рТ Д аш иасдце й у н шАвЕкм ОртГ вечес/ше б ю а ы :А £ £к м £ £I2 Русские буквы:ВВСвоенно-воздушные силы, ВНРВенгерская народнаяреспубликаЛатинские буквы:ВВСB ritish Broadcasting Corporation, ВНРB ritish horsepower. 6.5 Е д и н ств е н н о е и л и м н ож е ств е н н о е ч и с л о 6.5.1 К у л ь ту р н ы е и л и н гв и с т и ч е с к и е ф а кто р ы В естественных языках существуют разные правила, касающиеся использования единственного или множественного числа. В некоторых языковых сообществах, например во французском и немецком языках индексаторы, как правило, используют единственное число, для того чтобы пользователь мог использовать тезаурус так же. как он пользуется обычным словарем. Однако, в английском и испанском языках, выбор числа основывается на том. является ли тот или иной термин формой исчисляемого или неисчисляемого существительного. Принятие такого правила помогает отличать процесс, например «painting (рисование)», который может быть выражен только формой единственного числа, от резуль­ тата этого процесса, в данном случае «paintings (рисунки)». В русскоязычных тезаурусах встречаются оба подхода. Форма термина в каждом языке должна быть основана на принятых в данном языке правилах. Следствием такой практики является то, что в многоязычном тезаурусе термину в единственном числе на французском и немецком языках может соответствовать в других языках эквивалент в форме мно­ жественного числа.Примеры1 fr:maison2 de:Haus3 ел:houses4 es:casas5 ru:дома. 6.5.2 Т рактов ка и с ч и с л я е м ы х с у щ е с т в и т е л ь н ы х П р и м е ч а н и е — Принципы, изложенные в настоящем подпункте, применимы при использовании рус­ ского, английского и испанского языков, а не французского и немецкого. Правила для других языков могут быть выработаны путем изучения практики, широко используемой в тезаурусах на этих языках. 22
ГОСТ Р 7.0.91— 2015 Исчисляемые имена существительные — это наименования подлежащих счету объектов, к кото­ рым применим вопрос «How many? — Сколько?», а не «How much? — Как много?». Их следует обозна­ чать формами множественного числа.ПримерыИсчисляемые существительные:1 documentsдокументы2 penguinsпингвины3 po litica l partiesполитические партии4 windowsокна. Исключением из этого правила являются наименования частей тела, которые обычно обознача­ ются формами единственного числа.ПримерыИсключения:1 digestive systemпищеварительная система2 eyeглаз3 headголова. Другим исключением являются имена живых организмов. Многие виды, например. Escherichia со// или Euonym us fortunoi, в обычном употреблении названия не имеют, и они известны только по их науч­ ным наимеваниям. для обозначения которых принято использовать латинский термин в единственном числе. Чтобы быть последовательными, в тех случаях, когда латинские наименования и названия, при­ нятые в языке тезауруса сосуществуют в одном ряду, использование единственного числа может быть распространено на все объекты этого ряда. Однако использование единственного числа не является строго обязательным, и редакторы тезауруса могут отдать предпочтение множественному числу, на­ пример: «zobrasзебры», «whalesкиты» или «daffodilsнарцисс». Однако, как скоро соглашение принято, оно должно применяться последовательно. Когда контрольный словарь используют для именования музейных предметов, как правило, при­ меняют форму единственного числа терминов. В целом, однако, чаще понятия представляют не от­ дельные объекты, а категории объектов, и использование форм множественного числа является более целесообразным. Один предмет может быть назван «стул», но категорию скорее следует искать под обозначением «стулья». Использование форм множественного числа в дескрипторах в подобных слу­ чаях увеличит устойчивость принятых соглашений, поскольку оно позволяет использовать один и тот же тезаурус и для музейных предметов, и для других типов информационных ресурсов. 6.5.3 Т рактов ка н о и с ч и с л я е м ы х с у щ е с т в и т е л ь н ы х П р и м е ч а н и е — Принципы, изложенные а настоящем подпункте, применимы для русского, английского и испанского языков, но не применимы для французского и немецкого языков. Для других языков наилучшие под­ ходы могут быть выявлены путем изучения общей практики широкого использования тезаурусов на этих языках. Неисчисляемые существительные — это наименования таких понятий, как материалы или веще­ ства. которые отвечают на вопрос «How much? — Как много?», а не «How many? — Сколько?». Их. как правило, обозначают формами единственного числа.ПримерНеисчисляемые существительные:cottonхлопокaluminiumалюминийsteamпар. Однако если обслуживаемое тезаурусом сообщество пользователей рассматривает данное ве­ щество или материал как класс с более чем одним элементом, то этот класс следует обозначать фор­ мой множественного числа.ПримерИсключения:grassesтравыpoisonsядыsteelsстали. Наименования абстрактных понятий, свойств, систем убеждений, научных дисциплин, деятель­ ностей и процессов часто являются неисчисляемыми существительными, и их следует обозначать фор­ мами единственного числа.ПримерыДругие разряды нвисчисляемых существительных:1 Абстрактные понятия: personality: winter; индивидуальность; зима 23
ГОСТ Р 7.0.91— 2015 2 Свойства: brittleness; opacity; solubility; хрупкость; непрозрачность; растворимость 3 Системы убеждений: Catholicism; Shintoism; communism; католицизм; синтоизм; коммунизм4 Деятельности и процессы: cutting; im migration; shrinkage; отделение; иммиграция; сжатие5 Научные дисциплины: astronomy; sociology; астрономия; социология. Однако если рассматриваемое абстрактное понятие трактуется как класс с более чем одним чле­ ном. то этот класс следует обозначать формой множественного числа.Пример — Дополнительные исключения:chemical reactionsXUMUHKKUt геДКШШintelligence tests /ПбСШЬ/ Ш И П Ш Ш аШ Д Ш Я Ш Иphysical sciences(tlU2U4QQtiUS flflu m 6.5.4 С о сущ е ств о в а ни е ф о рм е д и н с тв е н н о го и м н о ж е с тв е н н о го чи сла В любом языке, если формы единственного и множественного числа термина обозначают разные понятия, то обе эти формы должны входить в тезаурус. Различие между ними должно быть выявлено за счет добавления лексических примечаний и. если это возможно, квалифицирующего термина или фразы (релятора).ПримерВ английском языке:wood (material)woods (areas o f woodland)Во французском языке:statistique (science)statistiques (donnees)В русском языке:лес (материал)леса (территории). Следует подчеркнуть, что добавленный релятор не является лексическим примечанием (см. 5.2), а становится неотъемлемой частью термина. Если формы единственного и множественного числа термина обозначают одно и то же понятие и при этом их написание отличается таким образом, что в алфавитном списке их будут разделять не связанные с ними по значению термины, то следует ввести аскриптор. снабженный ссылкой.ПримерВ английском языке:mouse USEmice.Во французском языке:уеихЕМоеН.В русском языке:уш исм.ухо. Если формы единственного и множественного числа обозначают одно и то же понятие и их на­ писание отличается незначительно, обычно обеспечивается ввод только дескриптора. Но может быть добавлен и аскриптор. если предполагается компьютерное обращение к словарю. 6.6 В ы б о р д е с кр и п то р а 6.6.1 О бщ ие полож ения Иногда в одном и том же языке одно и то же понятие может передаваться более чем одним тер­ мином. Если несколько терминов передают одно и то же понятие, то один из них должен быть признан дескриптором, а все другие {см. 8) — аскрипторами. Д ля многоязычного тезауруса эта ситуация описа­ на в разделе 9. Когда существует выбор между синонимическими формами выражения, должны учитываться предпочтения того сообщества, для обслуживания которого тезаурус создавался (чтобы исключить двусмысленности и выражения, которые пользователь может воспринять болезненно). 6.6.2 П р а во пи сан и е Дескрипторами следует признавать наиболее распространенные варианты правильного написа­ ния слова. Если существуют другие варианты написания этого термина, которые являются общ епри­ знанными. то их следует включать в тезаурус в качестве аскрипторов с указанием ссылок от аскрипторов к дескрипторам. 24
ГОСТ Р 7.0.91— 2015Примеры1 В английском языке:RoumaniaUSERomaniaRumaniaUSERomaniaВо французском языке:LithuanieЕМLituanieВ русском языке:риелторсм.риэлтор2 В английском языке:non-fictionUSEnonfictionВо французском языке:co-voiturageЕМcovoiturageВ русском языке:Шри-Ланкасм.Шри Ланка. Правила орфограф ии должны соответствовать практике устоявшихся словарей и глоссариев языка тезауруса. Если между вариантами написания сделан выбор в пользу одного из диалектов (на­ пример. между американским и британским вариантами английского языка), то во введении тезауруса должно бы ть указано, какой из диалектов был выбран (см. 13.4). И это правило следует неукоснительно соблюдать. Однако в именах собственных на законном основании могут допускаться непоследовательности, поскольку их написание должно быть приведено в соответствие с практикой признаваемой владель­ цами этих имен или нормативными источниками, такими как Virtual International Authority File (V IA F )4 Примеры из набора 3. в которых принята британская орфографическая система за исключением имен собственных.ПримерБританская орфографическая система за исключением имен собственныхcolourUFcolor (цвет)defenceUFdefense (оборона)Department o f Defense(департамент правительства США)M inistry o f Defence(департамент правительства СоединенногоКоролевства). Неправильное написание слов в дескрипторах недопустимо. О днако если орфографические ош ибки распространены очень широко, то их включение в состав входов в тезаурус (особенно в элек­ тронный тезаурус) может оказаться целесообразным, и они могут быть введены в ранге аскрипторов.Примеры1 В английском языке:abattoirsUFabatoirs(скотобойни)abbatoirs abattoirs.2 Во французском языке:Mitterrand Francois ЕРMitterand Francois (Франсуа Миттеран).3 В русском языке:антенасантеннаЕльцинсЕльцын. Термины с орф ограф ическими ош ибками могут служить входами в тезаурус только в следующих случаях: a) орфографические ошибки достаточно часто встречаются; b ) не существует опасности установления связи между ошибочным написанием и термином, от­ личным от того дескриптора, с которым эта ош ибка связана ссылкой в тезаурусе. Такие входы должны быть помечены каким-то специальным образом, показывающим, что в дан­ ном случае мы имеем дело с орфограф ической ош ибкой. В качестве одного из таких вариантов может быть замена метки UF меткой MS (означает «misspelling» — орфограф ическая ош ибка), а в русском языке замена ссылки с (синоним! ссылкой о о (орфографическая ошибка). 1> VIAF является совместным проектом нескольких национальных библиотек [7]. VIAF включает более 13 миллионов официально зарегистрированных собственных имен, поддерживается консорциумом OCLC и до­ ступен на сайте http:tfviaf.org/.. 25
ГОСТ Р 7.0.91— 2015 Если неправильно написанные слова вводятся в качестве аскрипторов. то следует принять ре­ шение об исправлении таких орфографически неправильных аскрипторов в печатных и электронных версиях тезауруса, где они ничего не добавляют к пониманию пользователем термина, а использовать их только при поиске в Интернете для интерпретации запроса, предложенного пользователем. 6.6.3 З а и м с т в о в а н н ы е те р м и н ы и и х п е рев о д Заимствованные термины, если они уже вошли в язык, могут использоваться в качестве дескрип­ торов (См. 9.3.3.2 и 9.3.3.3).Примеры1 В английском языке:bouquetsgestalt therapyombudsmen.2 Во французском языке:handballpermafrost pizza.3 В русском языке:букет омбудсменпицца. Иногда заимствованный термин и предполагаемый перевод сосуществуют. Если заимствованный термин более широко распространен, он должен рассматриваться как дескриптор, однако и предлагае­ мый перевод может стать дескриптором, если он уже вошел в язык. Два таких термина следует связы ­ вать взаимными ссылками.Примеры1 В английском языке:coiffeursUSEhairdressers(парикмахеры)hairdressersUFcoiffeursabattoirsUFslaughterhouses (скотобойни)slaughterhousesUSEabattoirs.2 Во французском языке:baladodiffusionEPpodcast(вещание через iPod)podcastEMbaladodiffusion.3 В русском языке:вертолетсгеликоптергеликоптерсмвертолет. 6.6.4 Т рансл и те ра ц ия При транслитерации терминов из языков с другими алфавитами следует использовать утверж­ денные схемы соответствия алфавитных символов и их сочетаний. Во введении к тезаурусу должно быть указано, какая из утвержденных схем применяется в этом тезаурусе. Некоторые заслуживающие внимания схемы можно найти в справочнике [27] и в опубликованных стандартах, перечисленных в библиографии1). См. также п. 12.4, где рассматриваются вопросы автоматического кодирования аль­ тернативных письменностей. 6.6.5 Н е о л о ги зм ы , с л е н г и ж а ргон Вместо быстросменяемых терминов, употребляемых в сленге или жаргоне, на практике может быть полезным использовать термины сленга/жаргона в качестве дескрипторов. Однако часто в ответ на появление новых технологий или развития общественной и политической жизни появляются полезные неологизмы. Они могут быть приняты в качестве терминов тезауруса, если они будут оценены как полезные для поиска информации.Примеры1 В английском языке:carbon trading(торговля квотами на выброс углекислого газа)smart cards(смарт-карты). ’ ) Для русского и других языков с кирилловским алфавитом действуют Г8Т и [91. 26
ГОСТ Р 7.0.91— 20152 Во французском языке:alicamentbaladodiffusion(падкастинг, вещание через iPad)litterisme.3 В русском языке:шестидесятники. Просторечные и жаргонные формы могут быть применены в следующих обстоятельствах. a) Вновь появившееся понятие выражается термином, возникшим в рамках определенной суб­ культуры или социальной группы, и не существует альтернативного общепринятого наименования для этого понятия. Тогда термину на сленге или жаргоне следует придать статус дескриптора.Примеры1 Hippies(хиппи)2 Web feeds(вэб-новости. вэб-каналы). b ) Если жаргонные термины широко используются вместо общ еприняты х терминов и м ногие поль­ зователи считают полезным их использование в качестве входов в тезаурус. В этом случае принятому дескриптору следует обеспечить ссылку на аскриптор из сленга или жаргона.Примеры1 В английском языке:psychiatristsUFshrinks(психиатры)shrinksUSEpsychiatrists.2 Во французском языке:policierЕРтс(полицейский)ШсЕМpolicier3 В русском языке:мобильниксмсот овый телефонсотовый телефонсмобильник. с) Если целевая аудитория отдает явное предпочтение сленгу или жаргону, может быть полезным использование сленга/жаргона в качестве дескрипторов, интерпретируя альтернативные термины как асхрипторы. Такое решение может быть принято в случае, например, предпочитающей сленг молодеж­ ной аудитории. 6.6.6 О б щ е п р и н я ты е н азв ан и я и т о р го в ы е м арки На практике оказывается, что продукт известен по торговой марке. Тогда в качестве дескриптора следует выбрать общепринятое название, а торговую марку следует включить в качестве аскриптора и только в том случае, если считается, что ее наличие облегчит пользователю доступ в тезаурус. Если зарегистрированные товарные знаки снабжены правовой защитой, чтобы избежать юридических про­ блем. к термину следует добавить символ «®».Примеры — 1 soluble coffee UFNescafe® 2 Nescafe® USE soluble coffee(растворимый кофе).3 винчестер см жесткий диск 4 жесткий диск свинчестер. Исключения допустимы, например, когда один универсальный продукт продается под нескольки­ ми конкурирующими торговыми наименованиями и пользователи хотят, чтобы эти разные бренды были разграничены. В этом случае дескриптором для универсального продукта может служить общее имя. а торговые наименования могут использоваться в качестве нижестоящих терминов (см. 8.4).Примерballpoint pens(шариковая ручка)NT Bic pensBiros. 6.6.7 Н а ро д н ы е н азв ан и я и н а у ч н ы е н аи м е но ван и я Если как народное, так и научное название являются представителями одного и того же поня­ тия. то предпочтение должно быть отдано той форме, в пользу которой высказываются пользователи тезауруса. Например, «penguins — пингвины» может быть выбран в качестве дескриптора в общем тезаурусе, а в зоологическом тезаурусе в качестве дескриптора предпочтительнее научный эквивалент, «Sphenisciformes». В таких случаях должны быть использованы взаимные отсылки. 27
ГОСТ Р 7.0.91— 2015 6.6.8 А б б р е в и а ту р ы и с о кра щ е н ия Аббревиатуры и акронимы могут относиться не только к одному понятию и по этой причине быва­ ют неоднозначными. Поэтому полная форма имени должна функционировать как дескриптор, а сокра­ щенная форма — как аскриптор. При этом они должны быть связаны взаимными ссылками.ПримерАкронимы/аббревиатуры не требующие разъяснения:В английском языке:United Nations Environment Programme UPUNEPUNEP USEUnited Nations Environment Programmedirect currentUFDC (direct current)DC (direct current)USEdirect currentnational insuranceUFN1 (national insurance)N1 (national insurance)USEnational insurance.Во французском языке:nouveaux pays industrialsEPNPI (nouveaux pays industrials)NPI (nouveaux pays industrials) EMnouveaux pays industriels.В русском языке:ЧП(чрезвычайное происшествие)смчрезвычайное происшествиечрезвычайное происшествиесЧП (чрезвычайное происшествие). Когда сокращения или аббревиатуры широко известны, однозначны и легко понимаются всеми в пределах охватываемой тезаурусом области, особенно, если их употребление настолько утвердилось в языке, что полная форма термина употребляется очень редко или не употребляется совсем, тогда в виде исключения такие сокращения или аббревиатуры могут использоваться в качестве дескрипторов. Однако и в этом случае полная форма термина и его аббревиатура должны быть связаны взаимными ссылками.ПримерАкронимы/аббревиатуры не требующие разъяснения:В английском языке:UNICEF UFUnited Nations International Children's Emergency FundUnited Nations International Children's Emergency FundUSEUNICEFHIVUFhuman immunodeficiency virushuman immunodeficiency virusUSEHIV.Во французском языке:SIDA EPSyndrome d ’immunoddficience acquiseSyndrome d ’immunodeficience acquiseEMSIDA.В русском языке:ООНсОрганизация Объединенных Наций 28
ГОСТ Р 7.0.91— 2015Организация Объединенных НацийсмООНСПИДссиндром приобретенного иммунодефицитасиндром приобретенного иммунодефицитасмСПИД. 6.6.9 Имена с о б с т в е н н ы е 6.6.9.1 Общие положения Имена собственные часто бывают полезными в тезаурусе, но их подчас приходится исключать из-за того, что существует слишком много кандидатов, и особенно, если их формы контролируются дру­ гими авторитетными списками или наборами правил, подобных Anglo-American cataloguing rules (Англоамериканские правила каталогизации)11 [10]. Имена собственные должны быть включены в тезаурус, если он является единственным средством для проверки точности терминов индексирования. Их вклю­ чение имеет то дополнительное преимущество, что дает возможность установления иерархических или ассоциативных связей (см. раздел. 10) между предметными терминами и соответствующими собствен­ ными именами, например, когда последние являются отдельными представителями первых.Примеры1 mountainsгопыNTBen Nevisd____Sattiaaus.Mount EverestЭверест2 Hockney. David (1937-)Хокни. Д эвид (1937)ВТartistsвхудожникиRTcontemporary artсовременное искусство 6.6.9.2 Географические наименования Названия стран и географических регионов нередко изменяются от языка к языку. Варианты тер­ минов. обозначающих одни те же места, также могут применяться и в пределах одного языкового со­ общества по следующим причинам: a) в обиходном употреблении используются и «разговорный» и «официальный» варианты имени,ПримерRepublic o f KoreaSouth Korea. b) исконная форма имени отличается от обычной формы имени, принятой в языке тезауруса.ПримерLeghorn (Английский тезаурус может включать этот перевод названия итальянскогогорода, носящего местное название «Livorno»).Livorno (В тот же самый тезаурус может быть включено и исконное наименование). c) в стране с двумя официальными языками могут сосуществовать две общепринятые формы.ПримерGand (В Бельгии это французское название города Ghent сосуществует с голландским названием) Gent (В Бельгии это голландское название города Ghent сосуществует с французским названием) Статус дескриптора следует предоставить имени, которое наиболее привычно для большинства пользователей тезауруса. При этом предпочтение следует отдавать нормативным общеупотребитель­ ным. а не разговорным вариантам. Предпочтение должно быть отдано более короткому варианту нор­ мативного общеупотребительного имени. За консультациями по поводу нормативных общеупотреби­ тельных вариантов имени следует обращаться к официальным источникам. Дескрипторы и аскрипторы должны быть связаны взаимными ссылками.ПримерIrelandИрландияUFIrish RepublicсмИрландская РеспубликаEireЭйре 1> Этот набор правил широко использовался во время подготовки данной части настоящего стандарта, од­ нако. существуют планы по его замене новым стандартом, известным как RDA: Resource Description and Access. 29
ГОСТ Р 7.0.91— 2015EireЭйреUSE IrelandсмИрландияIrish RepublicИрландская РеспубликаUSE IrelandсмИрландия. 6.6.9.3 Имена юридических и физических лиц Вариативность имен является распространенным явлением. В том случае, если она не взята под контроль, она может создавать трудности. При включении в тезаурус форма имен должна выбирать­ ся в соответствии с принятыми правилами каталогизации, например, таким как Англо-американские правила каталогизации (Anglo-American cataloguing rules [37]). Следует удостовериться в том. что имя. используемое в качестве дескриптора, является грамматически правильным, актуальным и достаточно полным, и что его нельзя перепутать с названиями других юридических и ф изических лиц. О бщеупотре­ бительные альтернативные формы имени должны получить статус аскриптора.Примеры1 Armstrong. Louis (1901-1971)UFSatchmo (1901-1971)Армстронг, Луис (1901-1971)сСатчмо (1901-1971)2 Berners-Lee. Tim Бернерс-Ли, Тим 3 Otlet, Paul (1868-1944)Отле, Поль (1868-1944)4 Centre national de la danse (France)UFCND (Centre national de la danse)5 Association for Professional Broadcasting Education (U.S.)Association (U.S.) UFBroadcastEducation6 Минобрнауки РоссиисмМинистерство образования и науки Российской Федерации.7 Сложные понятия 7.1 О бщ ие по ло ж ен и я Понятия варьируются от очень простых до очень сложных. На полюсе простых понятий находятся такие понятия, как «серебро» или «люди». В терминах «грузинские серебряные чайники» или «защит­ ники прав человека» представлены уже более сложные понятия. И в последнем из них три понятия объединены в одно более сложное понятие. Сложные понятия очень часто передаются с помощью сложных терминов, которые могут быть морфологически расщеплены на два или более компонента. Одни из этих терминов состоят из несколь­ ких слов, а другие из одного сложного слова. «Биодеградация», например. — это однословный термин, в значении которого представление о приведении в негодность сочетается с представлением о том. что приведение в негодность обусловле­ но живыми организмами. Теоретически это понятие можно представить комбинацией понятий, образу­ ющих цепочку «приведение в негодность ♦ живые организмы». Разделение «биодеградация» на два понятия может показаться громоздким или неприемлемым, однако, когда некое сложное понятие постоянно передается с помощ ью многословного термина, выбор процедуры разделения на более простые понятия становится более легким и понятным. Так. например, понятие «защитники прав человека» можно легко разделить на понятия «права человека + защитники». А понятие «camping holilays» может быть адекватно выражено с помощью «camping + holilays». Для некоторых понятий существует много вариантов подобного синтеза. Например, понятие «управление человеческими ресурсами» может быть выражено с помощью «человеческие ресурсы ♦ управление» или «люди + управление ресурсами» или даже «люди ♦ ресурсы + управление». При многократном выборе редактор тезауруса не сможет избежать принятия трудных и субъек­ тивных решений: следует ли применять комплексное понятие или же опираться на более простые по­ нятия с тем. чтобы сами пользователи создавали их комбинации. Там. где тезаурус допускает много вариантов, решающим является желание сделать так. чтобы все пользователи для выражения д а н ­ ного сложного понятия применяли одну и ту же комбинацию. Быть последовательным становится еще труднее, если понятие может быть разбито более чем на два компонента, как например «управление человеческими ресурсами». Еще одно соображение заключается в том. что введение сложных понятий, представленных как однословным, так и многословным термином, как правило, повышает специфичность. Большая специ- 30
ГОСТ Р 7.0.91— 2015 ф ичность помогает пользователям достичь большей разрешающей способности. Например, если при­ знать «biodegradability — подверженность биодеградации» более узким термином, чем «degradability — подверженность деградации», то релевантные документы становится искать проще, поскольку исключаются ненужные документы о приведении в негодность с помощью химических средств или из-за воздействия ультрафиолетовых лучей. В качестве платы за эту простоту объем тезауруса все увеличивается и увеличивается. Родственные понятия оказываются разделенными, что делает более трудным для пользователя процесс выбора правильного термина. Большинство примеров в разделе 7 базируются на использовании многословных терминов. Од­ нако те же самые соображения касаются и многих сложных понятий, передаваемых однословными терминами. Кроме того, в таких языках, как немецкий, для которого характерно наличие множества сложны х слов, выбор разделения однословных терминов будет гораздо более широко представлен, чем в английском языке, и при этом будут работать те же самые руководящие принципы. 7.2 П ри ро да с о с т а в н ы х те р м и н о в В английском язы ке1) сложные термины состоят более чем из одного слова.Примеры1 Road safetyбезопасность на дорогах2 Thesaurus management softwareпрограмма ведения тезауруса3 Hirds o f preyхищ ные птицы. Отдельные части большинства таких терминов вычленяются следующим образом. a) Ф окус или главное слово, это такой обозначенный существительным компонент, который опре­ деляет общий класс понятий, к которым этот термин может быть отнесен как единое целое.Примеры1 Именной компонент «indexesуказателии в термине «printed indexesпечатныеуказатели»2 Существительное «hospitalsбольницы» в предложном словосочетании «hospitals for childrenбольницы для детей». b ) Различительный признак или модификатор, т.е. один или несколько дополнительны х компонен­ тов. которые служат для сужения области фокусирования понятия, специфицируя тем самым один из его подклассов.Примеры1 Прилагательное «printedпечатный» в термине «printed indexes» — печатные указатели2 Сочетание предлога с существительным «for childrenдля детей» в термине «hospitals for childrenбольницы для детей». Процедура подобного анализа иногда может быть применена к однословному термину, выражен­ ному сложным словом.ПримерТерминФокусДифференциальный признакagroindustry (агроиндустрия)industry (индустрия)agro (префикс, происходящий из «agriculture»)biosecurity (биобезопасность)security (безопасность)Ыо (префикс, происходящий из «biology») 7.3 П роблем а д о п у с т и м о с т и и с п о л ь з о в а н и я с л о ж н ы х п о н я ти й 7.3.1 О б зо р возм ож н остей В качестве простого примера рассмотрим ситуацию, когда такое понятие как «road safety (без­ опасность на дорогах)» могло бы быть представлено с помощью комбинации более простых понятий «road — дорога» и «safety — безопасность». Предполагается, что параллельно с увеличением сложно­ сти растет количество допустимых вариантов представления понятия. Так. понятие «thesaurus manage­ ment software программа ведения тезауруса» может быть представлено как «thesauri — тезаурусы» + ♦ «m anagem ent — управление» ♦ «software — программное обеспечение» или как «thesaurus manage­ m ent — ведение тезауруса» + «software — программное обеспечение». 1> Равно как и в других языках. 31
ГОСТ Р 7.0.91— 2015 Необходимо рассмотреть следующие пять основных способов обращения с предлагаемыми сложными терминами. a) Д опустить использование сложных понятий, манипулируя этими образованиями как единым дескриптором.Примеры1 Camping holidaysот дых в кемпинге2 Road safetyбезопасность на дорогах3 Thesaurus management softwareпрограмма ведения тезауруса. b ) Д опустить использование таких понятий, представляя их комбинацией двух или более тер­ минов. В этом случае при вводе аскриптора для обозначения целостного понятия следует снабжать его указанием на соответствующую комбинацию более простых дескрипторов. Эту возможность часто трактуют как «расщепление» понятия.Примеры1 Camping holidaysUSEcamping + holidays2 Thesaurus management softwareUSEthesaurus management * software3 Программы ведения тезаурусасмведение тезауруса + программы. с) Допустить понятие в качестве кандидата с пересмотром этого решения по истечении испытательного срока. d ) Отклонить сложное понятие, если оно слишком редко употребляется, является нерелевантным или неуместным. e ) Исключить прямое включение понятия, но сохранить более широкое (вышестоящее) понятие, и разрешить использование аскриптора. связанного с вышестоящим дескриптором.Примеры1 Road safetyUSEsafety2 Thesaurus management softwareUSEsoftware3 Безопасность на дорогахсмбезопасность4 Программы ведения тезаурусасмпрограммы. 7.3.2 М атериал д л я ра зм ы ш л е н и я Принятие разрешения об использования термина имеет сложный и субъективный характер. При принятии решения отчасти можно руководствоваться анализом файлов журнала поисковых транзак­ ций. к которым обеспечен доступ (см. 13.1.3.3 и 13.2.2). Разработчик тезауруса должен соблюдать ба­ ланс преимуществ в поисковых ситуациях, возникновение которых можно предвидеть. При этом следу­ ет уделять внимание факторам, которые в порядке их приоритетности изложены ниже. a ) Частота использования. Первоочередному рассмотрению должны быть подвергнуты относи­ тельно сложные понятия с правами кандидата в дескрипторы в случае, если их часто ищут или если их значение для сообщества пользователей возрастает, особенно если термин, представляющий это понятие, широко используется и понятен аудитории. Обычно в таком случае используется вариант а) из 7.3.1. но также допустимы и варианты Ь) и с). b ) Степень точности. Если предстоит индексировать большой объем релевантных документов, то важным может оказаться решение о разграничении сложных понятий или набора близких понятий. Если в коллекции документов встречается термин «road safety (безопасность на дорогах)», то набор документов может затрагивать и понятия «rail safety (безопасность железнодорожного транспорта)» и/или более общее понятие «transport safety (транспортная безопасность)», а также и понятия «fire safety (пожарная безопасность)» и «safety in the home (безопасность в быту)». Возможно, многие поль­ зователи захотят уметь различать эти разные аспекты безопасности. За счет включения в тезаурус всех этих терминов достигается более высокий уровень специфичности (конкретности), позволяющий про­ водить как индексирование, так и поиск с большей точностью. c) Неполнота поиска как результат множественности вариантов поиска. Обеспечение доступа к набору близкородственных дескрипторов затрудняет выбор вариантов. Например, если в тезаурусе присутствуют одновременно все термины: «safety», «transport safety», «passenger safety», «pedestrian safety», «vehicle safety», а также «road safety» («безопасность», «безопасность на транспорте», «без­ опасность пассажиров», «безопасность пешеходов», «безопасность автомобиля», а также «безопас­ ность дорожного движения»), то. чтобы быть уверенным, что найдены все нужные материалы, при по­ иске придется проверить все эти варианты (а также комбинации термина «safety» с такими терминами, как «roads», «vehicles», «cars», «road traffic»). 32
ГОСТ Р 7.0.91— 2015 Если общ ее количество документов по безопасности (safety) невелико, то может оказаться, что поиск был бы проще и эффективнее, если бы ни один из сложных терминов не был допущен в качестве дескриптора. Тогда единственной поисковой возможностью был бы выбор посткоординированного по­ искового предписания «roads + safety» («дороги ♦ безопасность)». d) Сложные термины, в которых один фокус характеризуется более чем по одному диф ференци­ альному признаку. В предыдущих примерах были использованы такие относительно простые термины, в которых ф окус «безопасность» квалифицировался только по одному диф ф еренциальному признаку, например «транспорт». Большая сложность возникает с такими понятиями, как «транспортное сред­ ство пожарной безопасности», в котором основное значение (фокус) квалифицируется одновременно по двум диф ференциальным признакам. Использование таких терминов ведет к дальнейшему умноже­ нию количества вариантов и мешает проведению простого поиска, поэтому их следует избегать. Напри­ мер. сочетание терминов «транспортное средство» + «пожарная безопасность» адекватно отражает необходимое понятие и не создает путаницы. e) Ожидания предполагаемых пользователей. Такой термин, как «pre-coordinate indexing — предкоординатное индексирование» мог бы быть приемлемым и полезным в тезаурусе, ориентированном на специалистов в области информационного поиска, но если тезаурус ориентирован на более широ­ кую аудиторию, использование этого термина может вызвать недоумение. В последнем случае лучше не разделять этот термин на термины «pre-coordination — предкоординация» ♦ «indexing — индексиро­ вание». а выбрать вариант с), создав входные термины к более широкому термину «индексирование» (см. 8.4). 0 Предотвращение неоднозначности терминов. Иногда включение сложного понятия необходимо для того, чтобы избежать неоднозначности, возникающей в том случае, если какой-либо компонент этих понятий допускает различные способы комбинирования при употреблении в своих разных значе­ ниях. Например, комбинация терминов «libranes (библиотеки)» и «science (наука)» могут использовать­ ся для формирования и термина «library science (библиотечная наука)», и термина «science libraries (научные библиотеки)». Во избежание получения в качестве результата поиска ненужных фрагментов и поискового шума, одно или оба эти сложные понятия могут бы ть признаны дескрипторами. д) Осложнения, связанные с многоязычностью (см. раздел 9). В случае многоязычных тезаурусов, присущ ие какому-либо из языков ограничения или особые потребности могут оказывать влияние на включение или исключение сложного понятия во всех языках тезауруса. h) Ожидаемая поисковая среда. Если программное обеспечение поиска предлагает сложные функции, такие как кластеризация результатов поиска, адаптация к интересам отдельного пользова­ теля или сообщества пользователей это может повлиять на уровень необходимой для тезауруса спец­ ифичности (конкретности). Этот фактор должен быть уравновешен допущением того, что программное обеспечение и другие элементы среды в будущем могут измениться. 7.3.3 О б сто яте л ьств а , ко т о р ы е с п о с о б с т в у ю т р а сщ е пл е н ию с л о ж н ы х п о н я ти й Сложные понятия подлежат разделению, если складываются следующие условия: a) разделение допускается в случае весьма специф ичных понятий, не принадлежащих к цен­ тральной части, сердцевине предметного охвата тезауруса. О днако включение в тезаурус большого числа таких периферийных терминов увеличивает общий объем и сложность словаря, не внося суще­ ственного улучшения поисковых характеристик; b ) если предполагается, что предлагаемый термин годится д ля индексирования л иш ь весьма не­ значительного количества документов, то вряд ли стоит присваивать этому термину статус дескрипто­ ра, а следует реализовать вариант разделение понятия; c) сложное понятие следует разделить, если фокус понятия охарактеризован с помощью более чем одного дифференциального признака, положенного в основу классификации понятий. Например, термин «underwater cine cameras» должен быть разделен на термины «underwater cameras» и «cine cameras»; d) комплексное понятие принято разделить, если фокус этого понятия является свойством, ча­ стью или компонентом диф ференциального признака.Примеры1 A ircraft enginesдвигатели самолетов,2 Hospital floorsбольничные отделения,3 Instrum ent reliabilityнадежность инструмента,4 Soil acidityкислотность почвы. 33
ГОСТ Р 7.0.91— 2015 Допускаются и исключения для случаев, когда мы имеем дело с понятием, своеобразие которо­ го выявляется из четкого определения этого понятия, например, как в случае понятия «температура тела». Очевидно, что ссылка на температуру тела в корне отличается от ссылки на температуру других неодушевленных предметов или веществ, обсуждаемых в том же документе данной коллекции. 7.3.4 О б сто ятел ьств а , ко т о р ы е п р е п я тс т в у ю т р а сщ е пл е н ию с л о ж н о го по ня ти я Сложные понятия не подлежат разделению, если складываются следующие условия, а) Термин, служащий для выражения какого-либо понятия привычен в повседневном использова­ нии или в области, охватываемой тезаурусом, так что дробление этого термина затруднило бы процесс понимания.Примеры1 Data processingобработка данных2 Gross domestic productвнутренний валовой продукт. b ) Разделение понятия на составляющ ие привело бы к утрате смысла, или к двусмысленности.Примеры1 В английском языке:plant foodрастительная пища(«food» * «plants» может означать и ярастения как еда», и япродукты питаниядля фабрик»),2 Во французском языке:marque de voitureмарки автомобилей (вmarque» * яvoiture» может означать и «марка автомобиля», и кавтомобиль как маркапрестижа»).societe de construction(яsociete» + «construction» может означать и я societe» для яconstruction»строительнаяфирма, и «construction» для яsociete»устройство общества).2 В дуссйоад яаше*пиша ж и м ш ш(ш ш ш * шишпшаж. нажат означать и шиюлАпа. ш и ш и ш ь. и нтиаашы&и длятиши!* c) Понятие обозначается дескриптором, являющимся или именем собственным, или включает в свой состав имя собственное.Примеры1 Boolean logicбулева логика2 United NationsОрганизация Объединенных Наций d ) Дифференциальный признак в рассматриваемом термине утрачивает свой первоначальный смысл.Примеры1 В английском языке:lawn tennisтеннис, не ягазонный теннис»deck chairsшезлонги, не япалубные кресла»trade windsпассаты, не «торговые ветра».2 Во французском языке:pistolet a temperatureбесконтактный измеритель температурыmaison mereголовная компания, не яматеринский дом»police d'assuranceстраховой полис, не «страховая полиция».3 В русском языке:черный ящ ик(система со скрытой структурой)Большой взрыв(гипотеза происхождения Вселенной)белый шум(шум с равномерным спектральным распределением).в ) Понятие представлено термином, характеризующий диф ференциальный признак которого по­ строен на метафорическом подобии с некоторым посторонним предметом или событием.Примеры1 Tree structures (древовидные структуры).2 Wing nuts (гайки-барашки). 34
ГОСТ Р 7.0.91— 2015 0 Если слова, входящие в состав имеющего терминологическое употребление словосочетания, рассматривать по отдельности, обозначают такие понятия, которые не имеют никакой связи с поняти­ ем. обозначенным словосочетанием, включающим их в свой состав. В этих случаях было бы неверным индексировать документы, содержащие термин-слоеосочетание. с помощью подобных терминов-ча­ стей.Примеры1 В английском языке:fire escapesпожарные лест ницы (обсуждение пожарных лестниц может ничего не говорить о«firesогонь, пожары» или об кescapingпобег, бегство»)swimming poolsплавательные бассейны (обсуждение плавательных бассейнов можетсодержать мало информации о плавании).2 Во французском языке:etablissement de santeучреждение здравоохранения (обсуждение учреждений здравоохраненияможет содержать мало информации о «santeздоровье»)classe de neige (обсуждение «classe de neige» может содержать мало информации о «neigeснег»).3 В русском языке:лазерный диск (обсуждение лазерных дисков может содержать мало информации о лазерах)настольная лампа (обсуждение настольных ламп не имеет отношения к сведениям о столах). д) Понятие представлено термином, фокус которого имеет два разных смысла в случаях присут­ ствия и отсутствия дифференцирующего признака.Примерartificial flowers (искусственные цветы)искусственные цветы не являют ся цветами, но. на-пример, в тезаурусе по дизайну интерьера это понятие вполне может быть подведено под класс «цветы (элемент декора)».chocolate eggs (шоколадные яйца)было бы ошибочным использовать термин «яйца»для индексирования текстов, в которых идет речь ошоколадных яйцах, т. к. эти «яйца»вид кондитер­ских изделий, а не яиц). 7.4 С п о с о б ы ра сщ е пле ния с л о ж н ы х п о н я ти й В некоторых простых случаях, например, в случае термина «road safety», обозначенное с помо­ щью этого многословного термина понятие может быть адекватно выражено и с помощ ью комбинации отдельных входящих в состав этого термина слов «roads» + «safety». Обоснованием для того, чтобы поступать в рамках отдельного тезауруса подобным образом, может служить то, что любой документ, касающийся «road safety», содержит сведения, релевантные при поиске сведений, касающихся как тер­ мина «road», так и термина «safety». Человек, ищущий информацию о дорогах, сочтет релевантной для своего запроса статью о безопасности на дорогах. Если понятие разделено, то его составляющие могут быть обозначены такими дескрипторами, которые не полностью совпадают со словами, входящими в состав расщепляемого многословного тер­ мина. Чтобы приспособить слова, входящие в состав многословного термина, для обозначения нужных понятий, их приходится модифицировать. Например, «rail safety — безопасность на железных дорогах», не должно быть разделено на «rails — рельсы» + «safety — безопасность», но должно быть выражено как «railways — железные дороги» + «safety — безопасность». Для термина «human resources — чело­ веческие ресурсы» комбинация «people — люди» ♦ «resources — ресурсы» вероятно более приемлема чем «humans — человеческий» ♦ «resources — ресурсы». Для сложных понятий, которые не заслуживают присвоения им статуса единого дескриптора, но при этом пользователи тезауруса, скорее всего, будут заинтересованы в их поиске, следует предусмо­ треть в тезаурусе записи следующего вида (см. раздел 8.5).Примерrail safetyбезопасность на железных дорогахUSE railwaysсмжелезные дорогиsafety + безопасность 35
ГОСТ Р 7.0.91— 2015 7.5 С охранение ко м п о н е н то в по ня ти я 7.5.1 О бщ ие в о п р о с ы В случае если составной термин принят в качестве дескриптора, следует рассмотреть вопрос о целесообразности включения в тезаурус в качестве дескрипторов и компонентов этого термина, если они ещ е не были ранее включены в тезаурус. Например, если мы принимаем дескриптор «road safe­ ty — безопасность на дорогах», то в тезаурус обычно включают дескрипторы «roads — дороги» и «safe­ ty — безопасность». При этом последний термин следует признать вышестоящим дескриптором по отношению к дескриптору «road safety — безопасность на дорогах», а дескриптор «roads — дороги» ассоциативно связанным с этим сложным термином (см. 10.3). 7.5.2 Ч асти и ко м п о н е н ты Путаница может возникнуть, когда в качестве диф ференциального признака составного термина использует название машины или какого-либо другого сложного агрегата, а фокус термина обозначает составную часть. Например, если «aircraft engines — двигатели» разделяется на «aircraft — самолет» и «engines — двигатели», при поиске no «aircraft — самолет», рассматриваемом как отдельный термин, выданы будут записи обо всех деталях воздушных судов наряду с документами о воздушных судах в целом. Для некоторых собраний документов это может оказаться приемлемым, но для других это приве­ дет к перегрузке термина «самолет», и исчезнет возможность изолированного рассмотрения докумен­ тов. в которых воздушные суда рассматриваются как единое целое. Одним из возможных выходов из такой ситуации является создание дескриптора «aircraft com ponents — компоненты самолетов», кото­ рый можно использовать в сочетании с дескрипторами «engines — двигатели», «instrumentation — при­ боры». «under-carriages — шасси» или названиями любого другого компонента воздушного судна. 7.6 П о с л е д о в а те л ьн о с ть в тр а кто в ке с л о ж н ы х п о н я ти й Последовательность в разработке тезауруса всегда полезна и ведет к последовательности в прак­ тике применения. Однако, в случае установления целесообразности включения в тезаурус сложных понятий полной последовательности достичь трудно, и она не всегда необходима. Присутствие непо­ следовательностей неизбежно, поскольку центральным областям тезауруса специфичность требуется в большей степени, чем его периферийным областям. Такие непоследовательности не оказывают не­ гативного влияния на процесс информационного поиска, и ими можно пренебречь, если имеется доста­ точно прозрачных и полезных входов в тезаурус. Последовательные правила оказываются полезными при редактировании тезауруса. Например, отдельному человеку трудно судить о необходимом уровне специфичности (конкретности), когда тезау­ рус является общим для нескольких организаций, которые используют его при работе с отличающими­ ся друг от друга коллекциями документов и с разными группами пользователей. Аналогичным образом, наличие общ его руководства необходимо, если составление тезаурусов является сетевым проектом, в котором задействованы сотни участников из разных стран. Для достижения согласованности следует создавать набор критериев, соответствующих пред­ метной области, примером которого может служить проект Art & Architecture Thesaurus (26), где пред­ ставлен набор правил разделения составных терминов с особым вниманием к потребностям каталоги­ зации единиц хранения в музеях и галереях. Одним из таких правил является разделение составного термина, если различительным признаком является стиль или название периода создания, вследствие которого понятие «барочная позолота» будет представлено как сочетание «барокко» ♦ «позолота». 7.7 П о р яд о к с л о в в м н о го с л о в н ы х тер м и н а х В дескрипторах, являющихся либо адъективными, либо предложными именными словосочетани­ ями. должен быть сохранен естественный порядок слов. Термины не должны подвергаться инвертиро­ ванию. Инвертированная форма предложных словосочетаний может быть включена в тезаурус, но в качестве аскриптора. Это особенно полезно, если тезаурус используется в печатной форме, но может не потребоваться для электронного тезауруса, в котором возможен поиск по любому составному эле­ менту входящего в состав тезауруса термина.Примеры1 Matter, states o fUSEstates o f matterдела, состояниесмсостояние дел 36
ГОСТ Р 7.0.91— 2015 2 Prey, birds o fUSEbirds o f preyптицы, хищ ныесмхищ ные птицы. В адъективных словосочетаниях (например, «brown bread — черный хлеб» или «double beds — двуспальные кровати») инвертирование вряд ли необходимо, поскольку существительное, являющееся ф окусом адъективных словосочетаний, обычно входит в состав тезауруса в качестве вышестоящего дескриптора (см. 10.2). Статья вышестоящего термина (например, «bread — хлеб» или «beds — крова­ ти») является входом, по которому могут быть найдены все нижестоящие термины.8 Отношения эквивалентности в одноязычном контексте 8.1 О бщ ие по ло ж ен и я Отношения эквивалентности — это отношения между дескриптором и соответствующим ему аскриптором(ами) в пределах одного и того же естественного языка. Как продемонстрировано в модели данных в разделе 15. это скорее отношения между терминами, чем отношения между понятиями. П р и м е ч а н и е — Отношения эквивалентности, которые связывают между собой термины из разных есте­ ственных языков, которые обозначают одно и то же понятие и которые часто получают название «межъязыковая эквивалентность», описаны в разделе 9. Отношение эквивалентности, устанавливаемое между дескрипторами и аскрипторами. является взаимообратным отношением. И эту взаимную (обратную) связь обозначают ссылками, приведенными ниже. USE предшествует дескриптору; UF (use for или used for) предшествует аскриптору1).ПримерВ английском языке:greenhouses(теплицы)UFglasshousesglasshousesUSEgreenhousesВо французском языке:biodiversite(биоразнообразие)ЕРdiversit6 biologiquediversite biologiqueEMbiodiversiteS BYfXKQM языке.ваашш£_____теплинытеплицысмпарники. Эквивалентность устанавливается в следующих случаях: a) термины являются синонимами (см. 8.2); b ) термины являются квази-синонимам и (см. 8.3); c) термин считается излишне специфичным (детализированным) и его представляют с помощью другого термина с более широким значением (см. п. 8.4); d) термин считается излишне специфичным и представляется с помощью комбинации двух или более терминов (этот случай известен под названием «compound equivalence — составная эквивалент­ ность») (см. 8.5). 8.2 С и н о н и м ы В практической работе встречаются синонимы разных типов. Следующий ниже список указывает наиболее типичные виды синонимов. Здесь указаны обозначения связи аскриптора с дескриптором только для англоязычных тезаурусов. Соот­ ветствующие обозначения для других языков см. в таблице 2 настоящ его стандарта, а также в примерах данного пункта. 37
ГОСТ Р 7.0.91— 2015 а ) Термины, происходящие из разных языков.ПримерВ английском языке:freedom; liberty(свобода)sweat: perspiration(пот).Во французском языке:marketing; mercatique(маркетинг)lobby; groupe de pression(лобби).В русском языкеменеджмент, организационное управлениелингвистика, языкознание. Ь) Общепринятые и научные названия.ПримерВ английском языке:baking soda; sodium bicarbonate(сода пищевая)rock roses; Cistus(каменная роза, ладанник).Во французском языке:aspirine; acide acetylsalicylique(аспирин)ail; Allium sativum(чеснок). fl иаивш языке.пишаааа eastа. ишшш дцДвадаайааш асдцдил. аиелшпйалиишк2йая,кислша. c) Общепринятые названия и торговые марки.Примерvacuum flasks; Thermos® flasks; Thermos® bottlesжесткий диск. Винчестер. d ) Варианты названия для вновь возникающих понятий.Примерhovercraft; air cushion vehicleslaptop computers; notebook computersховеркрафт; судно на воздушной подушкепереносные компьютеры: наколенные компьютеры: ноутбуки. е ) Недавно возникшие или предпочтительные термины в сравнении с устаревшими или вышедши­ ми из употребления терминами.Примерdeveloping countries; underdeveloped countriesradio; wirelessразвивающиеся страны; неразвитые странычахотка; туберкулез. 0 Варианты написания: в том числе варианты написания основ слов, инверсия порядка слов и неправильные формы множественного числа. Возможно, полезным было бы включение в число вари­ антов написания также некоторых типичных орфограф ических ошибок (см. 6.6.2).ПримерВ английском языке:geese; goose(гуси; гусь)groundwater; ground-water; ground water(грунтовые воды)paediatrics; pediatrics(педиатрия)radiation, ionizing; ionizing radiation; ionising radiation(ионизирующая радиация)Romania; Rumania; Roumania(Румыния)Во французском языке:clef; с!ё(ключ) 38
ГОСТ Р 7.0.91— 2015Lithuania: Lituanie(Литва)nenuphar, nenufar(кувшинка)bioenergie. bio-energie(биоэнергия)oeil. yeux(глаз; глаза)В и к с к м языке.ухо; уш и цскгсс/пас.' иш ипааSmsatDamaoSaaai. Dsam&us. t ? Апшйев: Оалшйей юго-восток: юговосток. д) Термины, восходящие к различным культурным традициям, которые обслуживаются общим языком.ПримерВ английском языке:flats; apartments(квартиры)lifts; elevators(лифты).Во французском языке:mitaine (fr-CA); m oufle (fr-FR)(рукавица)jo u rn a l de classe (fr-BE); agenda scolaire (fr-FR)(школьный дневник).В русском языке: изба; хатаподъезд; параднаяалгоритм: алгорифм. h) Аббревиатуры и акронимы или их полные наименования.ПримерFAO; Food and Agriculture Organizationpvc; polyvinyl chlorideПВХ; поливинилхлоридООН; Организация Объединенных Нацийвуз; высшее учебное заведение. i) Общеупотребительные названия или сленг и жаргон.ПримерВ английском языке:psychiatrists; shrinks(психиатры)soluble coffee; instant coffee(растворимый кофе).Во французском языке:policier; flic(полицейские)cafe soluble; cafe instantanne(растворимый кофе).В bvcckqm языке.елайаааталы ш пи к. Дешатшазиекии хззяшплыи йиек. йиекета. В этих случаях выбор дескрипторов определяется потребностями подавляющего большинства пользователей и проводится с учетом рекомендаций, изложенных в 6.4 и 6.6. Чтобы обеспечить пред­ сказуемость. эти критерии должны применяться последовательно на всех этапах создания тезауруса. Если было принято решение, что в качестве дескрипторов следует выбирать общеупотребительные, а не научные названия, то такой выбор должен проводиться последовательно за исключением лишь тех случаев, когда соответствующих общеупотребительных названий в языке просто не существует. Аналогичным образом, должны быть приняты и последовательно проведены соглашения, касающиеся орфографии. Соглашения и критерии, касающиеся редакторских правил, должны быть приведены во введении к тезаурусу (см. 13.4). В качестве меток, отличных от UF (см), допускаются указания на то. какой тип эквивалентности превалирует в отнош ениях между членами пары терминов. А именно, в ка­ честве таких меток иногда используются (в английском языке) следующие символы: SP (SPelling variant) — вариант написания. MS (M isspelling) — орфограф ическая ошибка (см. 6.6.2). 39
ГОСТ Р 7.0.91— 2015 А В (Abbreviation) — сокращение. FT (Full form o f the Term) — полная форма термина. Для того чтобы распространить этот принцип и на все случаи, описанные в пунктах 8.3 и 8.4. не­ обходимо добавить описание дополнительных меток. Однако, адаптация должна проводиться лиш ь с очень большой осторожностью (см. 10.4). Во введение к тезаурусу должна быть помещена информация о нестандартных метках (см. 13.4). 8.3 К в а з и с и н о н и м ы Квазисинонимы часто занимают разные точки континуума значений и могут оказаться даже анто­ нимами.ПримерыПротивоположности, трактуемые как квазисинонимы:1 consistency, inconsistencywetness, dryness. 2 состоятельность, несостоятельностьсырость, сухость. Во второй строке приводимого выше примера мы находим тезаурусное понятие «количество вла­ ги в объекте или материале», которое может быть выражено в терминах, говорящих либо о влажности, либо о сухости. Выбор обозначения одного из этих аспектов в качестве дескриптора, а другого в каче­ стве аскриптора носит произвольный характер. Но существуют и такие случаи, когда понятия настолько тесно связаны, что представляется оче­ видным. что обсуждение одного из этих двух понятий заинтересует и пользователей, занятых поиском парного понятия.ПримерБлизкие понятия, трактуемые как квазисинонимы:bushes, shrubsкусты, зарослиmallets, hammersмолотки, молоты Диапазон отождествления квазисинонимов в некоторой степени зависит от предметной области тезауруса. В тезаурусе, специализирующем на швейном производстве, термины «перчатки» и «вареж­ ки» следует признать отдельными дескрипторами. В то же время в более широком тезаурусе текстиль­ ной отрасли эти два термина могут трактоваться как квазисинонимы. Принятие решения должно осно­ вываться на желаемой степени точности поиска. 8.4 В кл ю че н и е с п е ц и а л ь н о й те р м и н о л о ги и в со ста в в ы ш е с то я щ е го по няти я Иногда целесообразно объединять в рамках множества эквивалентов как название класса, так и названия членов этого класса, выбрав при этом в качестве дескриптора более широкий термин, стоя­ щий в иерархии выше.ПримерrockкаменьUFbasaltсбазальтgraniteгранитslateсланец etc.и т. д.basaltUSErockбазальтсмкаменьgranite USErockгранитсмкаменьslateUSEгоскроксланецсмкамень Такой технический прием иногда используют для уменьшения количества дескрипторов в тезау­ русе. Его применение ограничивает точность, которая может быть достигнута в процессах индексиро­ вания и поиска, и обеспечивает преимущество лиш ь в том случае, когда в индексируемой коллекции содержится очень мало информации по рассматриваемой тематике. Наличие аскрипторов создает д о ­ полнительные точки входа в систему, чтобы обеспечить пользователю доступ к нужной информации. Однако, подобное «поглощение» нижестоящих понятий вышестоящими не следует использовать при обилии информации по заданной теме; необходимость достижения большой степени точности поиска требует аккуратности указания понятий. 8.5 П ре дставл ен и е с л о ж н ы х п о н я ти й с п о м о щ ь ю сочетан и я те р м и н о в Если многословный термин оказывается непригодным для роли дескриптора, и в то же время мо­ жет быть востребован некоторыми пользователями, то его разрешается представить в виде комбина- 40
ГОСТ Р 7.0.91— 2015 ции двух или более дескрипторов (это называют составной эквивалентностью [см. 7.3.1. перечисление b)J. В тезаурус могут быть введены словарные статьи следующего типа:ПримерПредставление сложных понятий:coal miningдобыча угляUSEcoalC Mуголь*mining*добыча полезных ископаемыхferromagnetic filmsферромагнитная пленкаUSEferromagnetic materialsC Mферромагнитные материалы*films*пленка. При этом следует предусмотреть обратные статьи следующего типа:ПримерПредставление компонентов понятий:coalугольUF*coal miningс м *добыча угляm iningдобыча полезных ископаемыхUF+coa lm in in gс м *добыча угля. Трехчленные отношения признаются сложными, а разграничение меток «USE» и «+» введено только для облегчения чтения. В функциональном плане отношения между «соаЬ и «c oa lm in in g» иден­ тичны отношениям между «mining» и «coal m ining» в обоих направлениях. Гипотетически некоторые термины могли бы быть представлены в тезаурусе комбинаций дескрип­ торов. связанных отношением ИЛИ. а не И (см. примеры ниже). Но эту ситуацию следует рассматривать как случай омографии. Связей ИЛИ в комбинациях дескрипторов не следует допускать, вместо этого следует формировать тезаурусные статьи, в которых будет указан выбор определенной альтернативы значения.ПримерПрактика, которую следует избегать:В английском языке:pitchUSEaudio frequency(частота звука)ORgradient(наклон)Во французском языке:tonЕМnuance de couleur(оттенок цвета)OUtonalite (musique)(тональность)В русском языке:тон смоттенок цветаит__ тшкальшй.жук. О днако этот тип комбинирования понятий следует избегать, и вместо этого вводить пояснения, которые определяют выбор одного из альтернативных значений термина.ПримерРазъяснение альтернативного значения термина:В английском языке:pitch (sound)высота (звук)USE audio frequencyсмчастота звукаpitch (steepness)крутизна (наклон)USE gradientсмуклонВо французском языке:ton (couleur)тон (цвет)EM nuance de couleurсмоттенок цветаton (musique)тон (музыка)EM tonalite (musique):смтональностьВ русском языке:высота (звук) см____ частота звука тон (звук) сммузыкальный звуктон (цвет) смоттенок цвета. 41
ГОСТ Р 7.0.91— 20159 Межъязыковая эквивалентность Раздел 9 не включен в настоящий стандарт, поскольку вопросы разработки многоязычных тезау­ русов рассмотрены в И Л .10 Отношения понятий 10.1 В ведонио Кроме отношения эквивалентности имеется много других типов отношений, которые могут быть представлены в тезаурусе. Если отношение эквивалентности в одноязычном тезаурусе действует толь­ ко между дескрипторами и аскрипторами. то отношения, устанавливаемые в настоящем разделе, д е й ­ ствуют между понятиями (см. также модель данных в разделе 15). Такие отношения вводятся в тезаурус только при условии, что они парадигматические, т. е. имеют силу для всего разнообразия контекстов. П р и м е ч а н и е — Отношения между понятиями трудно отобразить, поскольку понятия существуют только в мыслях, и потому обычный метод состоит в том. чтобы показывать такие отношения как применяемые к де­ скрипторам. представляющим соответствующие понятия. Равным образом метки ВТ. NT. RT. которые отсыпают к вышестоящим (более широким), нижестоящим (более узким) и ассоциативным терминам соответственно, могут рассматриваться как отсылающие к более широким, более узким и ассоциативным понятиям. 10.2 И ерархическое отнош ение 10.2.1 О бщ ие полож ения Иерархическое отношение устанавливается между двумя понятиями, если предмет одного поня­ тия полностью включен в предмет другого понятия. Это отношение формируется в виде шкалы уровней иерархии, где вышестоящее понятие представляет собой род (класс) или целое, а подчиненное поня­ тие является членом, видом или частью вышестоящего. Соответственно отношения обозначают следующими метками, которые пишутся в теэаурусных статьях в виде префикса к вышестоящему или нижестоящему дескриптору. В английском языке: ВТ (broader term ) — префикс к вышестоящему термину. NT (narrower term ) — преф икс к нижестоящему термину. В русском языке: д (выше) — префикс к вышестоящему термину н (ниже) — префикс к нижестоящему термину.1)ПримерanimalsживотныеNTmammalsн______ млекопитающиеmammalsмлекопитающиеВТanimalsв______ животные. Иерархические отношения могут быть одного из трех типов: a ) родовидовое отношение; b ) отнош ение целое — часть (партитивное); c) отношение множество — элемент (отношение членства). Каждое из этих отношений выстраивает иерархии, которые подлежат проверке через обращение к соответствующим типам понятий, например, перечисленным в п. 5.1.2. Каждое подчиненное понятие должно принадлежать к той же категории, что и его вышестоящее понятие, т. е. и широкий, и узкий оба термина должны представлять либо вещь, либо действие, либо свойство и т. д. (см. дополнительно фасетный анализ в разделе 11).Примерa) «металлы» (класс материалов) и «лит ье* (действие) представляют различные т ипы понятийи следовательно не могут быть связаны иерархически;b) «металлы» и «золот од* — оба представляют материалы и следовательно могут иметь иерар­хическую связь. 1) Для других языков [7]. 42
ГОСТ Р 7.0.91— 2015 Эти три типа иерархии можно явно различать в тезаурусе при использовании соглашений, опи­ санных в 10.2.2,10.2.3 и 10.2.4. Но это потребует дополнительной работы, и ее сложность должна быть оправдана ожидаемыми преимуществами. Основная функция иерархических отношений состоит в помощи индексаторам и специалистам, ведущим поиск, в выборе надлежащего уровня специфичности. Поиск может быть расширен или сужен переходом по шкале иерархии вверх и вниз. Обычная техника увеличения полноты поиска называется «поисковым взрывом» или «взрывным поиском», при этом поиск расширяется за счет включения в по­ исковое предписание всех нижестоящих терминов первоначально выбранного дескриптора [см. 16.3.3, перечисления е) и 0. 16.3.4. перечисление с)]. Тщательное следование указаниям пунктов с 10.2.2 — 10.2.5 обеспечит выдачу только тех материалов, которые соответствуют значению вышестоящего по­ нятия {первоначально выбранного дескриптора). П р и м е ч а н и е — Взрывной поиск в отличив от расширенного поиска не распространяется на ассоциатив­ ные термины (см. 10.3) 10.2.2 Р о д о в и д о в ы е отн ош ен и я 10.2.2.1 Родовидовые отношения — это связь класса или категории со своими членами или вида­ ми. Дополнительно к проверке на состоятельность по 10.2.1 это отношение также подлежит логическо­ му тесту «все и некоторые», как это показано на рисунке 2.Некоторые Iптицысуть попугаи 1 Все Рисунок 2 — Отношение, удовлетворяющее тесту «все и некоторые» На рисунке 2 проиллюстрировано, что некоторые члены класса «птицы» известны как «попугаи», а все «попугаи» по определению независимо от контекста рассматриваются как «птицы». Этот тест обычно подтверждает, что такие термины как «попугаи» не подчинены классу «домашние животные», поскольку не все «попугаи» являются «домашними». На рисунке 3 показано отношение этой пары тер­ минов.Некоторыеi домашние животныесутьпопугаи}Некоторые Рисунок 3 — Отнош ения, не удовлетворяющие тесту «все и некоторые» На рисунке 3 показано, что только некоторые члены класса «домашние животные» являются «по­ пугаями» и только некоторые «попугаи» являются «домашними животными». П р и м е ч а н и е — Работе на тему «попугаи как домашние животные» при индексировании должны быть присвоены два дескриптора, которые представляют оба эти класса. 10.2.2.2 Такое соотношение может не выполняться в специальном тезаурусе, посвященном «до­ машним животным», в котором попугаи рассматриваются только в данном аспекте. Тогда термин «попу­ гаи» может быть подчинен классу «домашние животные» в одной и той же иерархии. Такие упрощения действительности следует принимать с осторожностью, особенно в контексте информационных сетей, в которых записи из одной системы могут соседствовать с записями из других систем. Для взаимодей­ ствия систем установленные отношения должны иметь универсальную значимость. 10.2.2.3 Ссылки В Т/NT в английском языке и в /н в русском, как правило, достаточны для указания на родовидовые отношения, но при необходимости могут применяться более точные обозначения: BTG (Broader term generic) = в р (вышестоящий термин родовой) NTG (Narrower term generic) = н в (нижестоящий термин видовой).ПримерratsкрысыBTGrodentsвргрызуныrodentsгрызуныNTGratsнвкрысы. 43
ГОСТ Р 7.0.91— 2015 10.2.3 И ер ар хиче ско е отн о ш е н и е «целое — часть» Иерархическое отношение целое — часть охватывает ограниченный круг ситуаций, в которых часть объекта или системы принадлежит исключительно одному определенному целому. Это относится к следующим четырем главным классам терминов. a) Системы и органы тела:Примеркровеносная системакровеносные сосуды артерии вены. b ) Географические области:ПримерКанадаОнтариоОттаваТоронто. c) Дисциплины или тематические области:Примернаукабиологияботаника зоология. d) Иерархические социальные структуры:Примерармиякорпусдивизиябатальонполк. Большинство других случаев отношений «целое — часть» не подлежат иерархическому связы ­ ванию. поскольку часть может принадлежать более, чем одному целому. Например, отношение BT/NT не следует устанавливать между терминами «велосипеды» и «колеса», поскольку колесо может быть частью автомобиля, тачки и многих других изделий. Общий поиск по термину «велосипеды» привел бы к выдаче множества нежелательного материала, если бы поиск был расширен по всем типам ко­ лес. О днако в некоторых случаях части изделия принадлежат исключительно данному изделию, по крайней меро, в сфере применения тезауруса. Может оказаться целесообразным установление связей ВТ/NT, например, между терминами «fireplaces» и «hearths», «лук» и «тетива». Это обычно не приводит к противоречию и содействует общ ему поиску по вышестоящему термину. Но такая практика не реко­ мендуется для случая компонентов сложных машин, для которых более разумным решением будет образование вышестоящего термина «компоненты устройства», под которым будут перечислены раз­ личные компоненты в качестве видовых терминов (см. 7.5.2). 10.2.3.1 Пометы ВТ/N T обычно достаточны для указания на партитивное отношение, но могут также применяться более точные пометы: ВТР (broader term partitive) = в ц (вышестоящий термин целого) NTP (narrower term partitive) = нч (нижестоящий термин части)Примерцентральная нервная системавцнервная системанервная система нчцентральная нервная система. 10.2.4 О тнош ение м н о ж е с тв о — элем ент 10.2.4.1 Отношение множество — элемент связывает общ ее понятие, такое как класс вещей или событий, с элементами этого класса, которые часто бывают представлены именами собственными (см. 6.6.9).Примергорные массивыклассАльпыГималаиэлементы класса. 44
ГОСТ Р 7.0.91— 2015 В этом примере названия «Альпы» и «Гималаи», присвоены подчиненным позициям в иерархии. Однако они не являются ни видами, ни частями понятия «горные массивы», а представляют отдельные элементы. 10.2.4.2 Пометы ВТ/NT обычно достаточны для указания на отношение множество — элемент, но кроме этого могут применяться также и точные пометы: BTI (broader term instantial) = вм (вышестоящий термин множества); NTI (narrower term instantial) = н э (нижестоящий термин элемента).ПримерПариж вмстолицыстолицынэПариж. 10.2.5 П ол и и о р а р хи че ски е отн ош ен и я Некоторые понятия логически принадлежат одновременно более чем одной группе или классу. В таких случаях должна быть установлена прямая связь со всеми соответствующими широкими по­ нятиями. а структура тезауруса тогда называется полииерархической. Она противопоставляется моноиерархической структуре, которая допускает установление для каждого понятия только одной действи­ тельной связи ВТ.Примермузыкальные инструментыклавишные инструментыдуховые инструментыорганы В примере термин «органы» присвоен подчиненной позиции родовидового отношения к двум вы­ шестоящим терминам. В других случаях полииерархические связи могут быть основаны на отношении целое — часть.Пример — В некоторых случаях полииерархические отношения могут быть основаны на различных типах отношений.Примерчереп В примере связь между терминами «кости» и «череп» основана на родовидовом отношении (че­ реп это вид костей), а связь между терминами «голова» и «череп» основана на иерархическом отноше­ нии целое — часть (череп есть часть головы). Когда одно понятие имеет более одного вышестоящего понятия, должны быть указаны связи со всеми соответствующими терминами. Факультативно может быть показано различив типов отношений посредством соответствующих помет.Примерчерепиличерепвкостивркостиголовав цголова 10.2.6 Н е си м м е тр и чн ы е с т р у к т у р ы во м н о го я з ы ч н ы х и м у л ь т и к у л ь ту р н ы х тезаурусах Обычно все языковые версии многоязычного тезауруса имеют одинаковую структуру иерархии по­ нятий. О днако могут возникать сложности установления иерархии понятий, когда две или более соци­ альные общности, различающиеся по культуре, пользуются одним тезаурусом, особенно если понятия и термины, известные одной общности, не имеют однозначных соответствий у другой. Чтобы согласо- 45
ГОСТ Р 7.0.91— 2015 вать культурные и языковые различия и обеспечить равный статус языковым версиям одного тезауруса могут быть введены несимметричные структуры. Подходы к построению многоязычных тезаурусов см. в 13.3.3. П р и м е ч а н и е — Если применяются несимметричные структуры, то модель данных, описанная в п. 15, должна быть модифицирована. 10.3 А с с о ц и а ти в н о е отнош ение 10.3.1 О бщ ие полож ения Ассоциативные отношения охватывают ассоциации между ларами понятий, которые не связаны иерархически, но связаны по смыслу или по единству природы в такой мере, что связь между ними должна быть указана в тезаурусе, поскольку благодаря наличию этой связи при проведении индексиро­ вания или поиска удается предложить альтернативный термин. Это отношение обозначается пометой «RT» (related term = родственный термин) в английском языке и пометой «а» в русском языке, которые указываются взаимно для каждого из связанных терминов.Примерптицы аорнитологияорнитологияаптицы. Общее значение ассоциативных отношений таково: если используется одно из понятий, в рамках обычных для пользователей тезауруса представлений другое понятие подразумевается. Более того, один из терминов часто необходим при определении или объяснении другого. Например, термин «пти­ цы» составляет необходимую часть объяснения термина «орнитология». В частности, важно устанавливать ассоциативное отношение между понятиями с пересекающ им­ ся охватом. 10.3.2 Т ерм ин ы и п о н я ти я с пе р е с е ка ю щ и м и с я зн аче ни ям и 10.3.2.1 В повседневном употреблении некоторые термины в одних контекстах могут заменять друг друга, а в других — нет. Например, термины «ships — суда» и «boats — лодки» могут быть упо­ треблены для обозначения различных понятий, поскольку, хотя они имеют много общего, ни один из них не покрывает объем другого понятия. Если два таких понятия введены в тезаурус и представлены различными дескрипторами, то целесообразно установить между ними ассоциативную связь. При по­ иске это напомнит о том, что возможно следует использовать оба дескриптора, чтобы быть уверенным в отыскании всего релевантного материала.ПримерboatsлодкиRTshipsaсудаshipsсудаRTboatsaлодки. 10.3.2.2 Дескрипторы с пересекающимися значениями могут быть близкородственными термина­ ми. «братьями», т. е. они имеют общий вышестоящий термин. Но нет необходимости связывать ассоци­ ацией все близкородственные термины. Например, не нужно связывать ассоциацией термины «лош а­ ди» и «ослы», потому что они имеют общий вышестоящий термин «лошадиные», поскольку значения терминов «лошади» и «ослы» не пересекаются. 10.3.3 Д р у ги е с л у ч а и а с с о ц и а т и в н ы х связей Достаточные основания для ассоциативной связи имеются тогда, когда один термин устойчиво вызывает представление о другом термине. Нижеследующие примеры представлены только как типич­ ные ситуации отношений, встречающиеся на практике. а) Дисциплина или область исследования и изучаемые объекты или явления:Примеры1 лесное хозяйствоалес 46
ГОСТ Р 7.0.91— 2015лесалесное хозяйство2 нейрологияанервная системанервная системаанейрология. Ь) Операция или процесс и его агент или инструмент:Примеры1 регулирование температурыатермостатытермостаты арегулирование температуры2 уголовный розыскаследователиследователи2 ауголовны й розыск. с) Действие и результат действия:Примеры1 weavingткачествоRTclothатканьclothтканьRTweavingаткачество.2 пахотааплугиплуги апахота.d) Дейст вие и то. на что оно направлено:Примеры1 сбор урожаяаурожайурожайасбор урожая2 арестаарестантыарестантыарест. е) Объекты или материалы и их определяющие свойства:Примеры1 магнитыаферромагнетизмферромагнетизмамагниты2 ядыатоксичностьтоксичностьаяды. 47
ГОСТ Р 7.0.91— 2015 f) Изделия и их части, если они не пригодны для отношения целое — часть (см. 10.2.3):Примероптические инструментыалинзылинзыаоптические инструменты. д) Понятия, связанные причинной связью:Примеры1 bereavementRTdeathdeath RTbereavement2 болезниапатогеныпатогеныаболезни. h) Объект или процесс и противодействующий агент:Примеры1 растенияагербицидыгербицидыарастения2 возгораниеаогнетушителиогнетушителиавозгорание. i) Понятие и единица его измерения:Примерэлектрический токаамперметрыамперметрыаэлектрический т ок j) Сложный термин и опорное существительное словосочетания, если соответствующие два по­ нятия не находятся в точном иерархическом отношении:Примеры1 модели кораблейакорабликорабли амодели кораблей.2 ископаемые пресмыкающиесяпресмыкающиесяпресмыкающиесяаископаемые пресмыкающиеся. 48
ГОСТ Р 7.0.91— 2015 к) Организм или субстанция, произошедшая или произведенная из другой:Примеры1 мулы аослыослы амулы.2 латунь амедьмедь алатунь. 10.3.4 М н о го я зы ч н ы е и м у л ь т и ку л ь ту р н ы с тезаур усы Для того чтобы обеспечить достаточность ассоциативных связей во многоязычном тезаурусе, должны быть учтены потребности в установлении связей пользователей всех языковых версий. Как уже описано в 9.1. 9.2 и 10.2.6. сообщества с различными культурами или различными языка­ ми. пользующиеся одним и тем же тезаурусом, иногда нуждаются в таких понятиях и связях понятий, которые незнакомы другим. Когда для удовлетворения этих потребностей вводятся несимметричные иерархические структуры, как правило, оказываются необходимыми также и несимметричные ассоци­ ативные связи. П р и м е ч а н и е — Если допускаются несимметричные структуры, модель, описанная в разделе 15. должна быть модифицирована. 10.4 П о л ь зо в а те л ьс ки е отн ош ен и я Отношения эквивалентности, иерархии и ассоциации, описанные в 8. 10.2 и 10.3. хорошо опре­ делены. широко используются и обычно рассматриваются как вполне адекватные в контексте исполь­ зования человеком для получения сведений о вышестоящих, нижестоящих и связанных терминах при выборе способа выражения своей информационной потребности. Однако иногда возникает необходи­ мость в дополнительных или более точных типах отношений. Таким ж е образом, как иерархические отношения разрешается подразделять на отношения род — вид. целое — часть и множество — элемент, так и отношения эквивалентности и ассоциации разре­ шается подразделять, если это необходимо для специального использования. Например, для аббре­ виатур и акронимов может быть введено отдельное отношение эквивалентности. Для их обозначения должны быть назначены пометы, отличные от USE/UF, например FT/АВ от «Full Term» и «Abbreviation», или для русского языка — п ф /кф от «полная форма» и «краткая ф орма». Аналогично для ассоциатив­ ных отношений можно ввести подразделение на такие два типа отношений как причина и следствие, обозначаемые такими пометами как CAUSE/EFFECT, или ПРИЧИНА/СЛЕДСТВИЕ. Прежде чем предпринять попытку установления более специф ичных отношений, разработчик те­ зауруса должен убедиться, что уточненные отношения будут действительно необходимы, а не останут­ ся просто привлекательным интеллектуальным конструктом. Предназначение тезауруса состоит в том. чтобы служить определенному коллективу пользователей в определенных обстоятельствах. И выгоду, получаемую от введения дополнительных отношений, может перевесить дополнительная сложность восприятия этих отношений пользователями. Однако проведение дополнительной работы можно счи­ тать оправданным, если тезаурус предполагается использовать в функции онтологии или во взаимо­ действии с ней. (В онтологиях обычно прорабатываются более специфичные и четко определенные отношения). П р и м е ч а н и е — См. рекомендации по этим вопросам в настоящем стандарте. В случае, когда в тезаурусе имеются специф ические особенности, требуемые заказчику, важно чтобы пользователь был осведомлен об этом и. чтобы использование такого специализированного те­ зауруса совместно с обычным тезаурусом не вызывало недоумения. Введение нестандартных помет или символов влечет за собой опасность потери совместимости при взаимодействии данного тезауруса с другими. Этот риск может быть уменьшен, если предоставляется гарантия того, что новые отношения являются истинными подвидами стандартных типов отношений. 49
ГОСТ Р 7.0.91— 201511 Фасетный анализ Фасетный анализ полезен при установлении иерархических отношений, удовлетворяющих прави­ лам 10.2, поскольку эти отношения действуют только между понятиями, принадлежащими одной и той ж е общей категории. Выбор фасетов может варьировать в зависимости от тематики тезауруса, но на самом верх­ нем уровне обычно используют фундаментальные категории — объект , м ат ериал, д е й с т в у ю щ и йагент , д е й с т ви е , м ест о, в р е м я и т. л. Там, где это целесообразно, эти фасеты могут быть разбиты на подфасеты до требуемого уровня дробности. Например, действия могут быть подразделены на не­ транзитивные п р о ц е с с ы (например, «созревание» или «ухудшение») и транзитивные о п е р а ц и и (на­ пример. «отрезание» или «исправление»). П р и м е ч а н и е — Действие называется негранзитивным, если действующ ий агент не воздействует на дру­ гой объект, в то время как агент транзитивного действия воздействует на обьект действия. Так, созревание ябло­ ка — внутренний процесс, но при разрезании яблока нож воздействует на него как на объект операции. Пример применения фасетного анализа при классификационном упорядочении приведен на ри­ сунке 4. где показаны некоторые термины из общего класса «industries». Непосредственно под этим термином располагаются два подчиненных термина «agricultural industries — сельскохозяйственное производство» и «engineering industries — промышленное производство». Один из фасетов, показан­ ных лсд «agricultural industries» является «products — продукты». В этом фасете показано только два уровня иерархии, за исключением термина «m ilk — молоко», который расписан так. что показано, как его нижестоящие термины сгруппированы в ряды, каждому из которых предшествует метка узла, ука­ зывающая на основание деления. Эти ряды представляют различные способы подразделения понятия «milk» — по жирности, по биологическому виду животных и т. п., на что указывает слово «Ьу = по» в составе каждой метки узла. В отличие от этого метки узлов, которые вводят новью фасеты, такие как «people» и «products», не содержат слова «Ьу». Необходимо отметить различие в структуре иерархических отношений терминов, разделенных метками узлов. Если метка показывает основание деления понятия, все термины, следующие за нею. обозначают подчиненные видовые понятия для вышестоящего термина. В то время как там. где метка узла вводит новый фасет, следующие термины обычно не соответствуют видовым понятиям предыду­ щего термина. Например, «farm managers = менеджеры ферм» и «cereal products = зерновые продукты» и т. п. не являются видами «agricultural industries — сельскохозяйственное производство». Метки узлов не являются терминами тезауруса. Они служат только для систематизации выдачи и они не могут быть членами отношений, описанных в разделе 8 — 10. Чтобы избежать недоразумений, метки узлов должны быть выделены шрифтом, отличным от шрифта терминов. Обычно для этого ис­ пользуют курсив и скобки, например как на рисунке 4. Некоторые другие пути применения фасетного анализа проиллюстрированы в 12.2.4 и 12.2.5. Термины, представляющие понятия одного ряда, могут быть представлены как в алфавитном, так и в систематическом порядке. Алфавитная последовательность целесообразна тогда, когда нет других очевидных путей группировки понятий. Систематический порядок целесообразен тогда, когда он ис­ пользован большей частью пользователей или когда он помогает прояснить значение терминов. В при­ мере с электромагнитным излучением (приведенным ниже) виды излучения расположены в порядке возрастания длины волны, что может помочь индексаторам в выборе подходящего термина.ПримерЭлектромагнитное излучение<по длине волны>ультрафиолетовое излучениевидимый светинфракрасное излучениемикроволновое излучениерадиоволны. П р и м е ч а н и е — Этот пример использует слегка измененные, но приемлемые соглаш ения о метке узла: угловые скобки вместо круглых, и родительский термин не выписан в начале метки узла. Присутствие слова «по», однако, показывает, что метка узла определяет основание деления и расположения типов излучений. В некоторых тезаурусах имена фасетов включены в качестве дескрипторов и рассматривают­ ся как термины высшего уровня, под которыми может быть показана полная иерархия терминов (см. 12.2.4). В других случаях может не существовать полного указателя всех фасетов, а ф асетные имена появляются только в качестве меток узлов, как это представлено на рисунке 4. или в качестве имен по­ нятийных групп (см. 15.2.18 — 15.2.19). 50
ГОСТ Р 7.0.91— 2015 industries agricultural industries (people) farm managers dairy personnel shepherds (p ro d u cts) cereal products dairy products butter cheese cream ice cream m ilk (m ilk b y fa t co n te n t) whole m ilk low fat m ilk skim m ilk (m ilk by form ) dried m ilk liquid m ilk (m ilk by source anim al) buffalo m ilk cow m ilk goat m ilk sheep m ilk (m ilk b y tre a tm e n t typ e ) condensed m ilk evaporated mifo homogenized m ilk pasteurized m ilk stenlized m ilk engineering industries (people) engineers (p ro d u cts) bolts wheels etc E X A M P L E 1 « P ro d u ls » is a n e x a m p le o f a n o d e la b e l th a t in d ic a te s ch a n g e s o f facet. E X A M P L E 2 « M ilk by so u rc e a n im a l» is an e xa m p le o f a n o d e la b e l in d ic a te s c h a ra c te ris tic s o f d iv is io n o f arra ys. Рисунок 4 — Частично развернутый классификационный указатель класса «industries» с метками узлов, показывающими смену фасетов и оснований деления рядов терминов12 Представление и оформление тезауруса 12.1 О бщ ие полож ения 12.1.1 И с п о л ьзо в а н и е б азы д а н н ы х д л я в ед он и я указател ей и н ф ор м ац и и В компьютерной системе тезаурус обычно представлен в структуре базы данных (см. раздел 15), где каждый отдельный термин и каждая связь пары терминов записаны только один раз. Это обеспе­ чивает постоянство отношений и позволяет выделять и показывать термины различными способами. 12.1.2 О бзор с ти л е й пр ед ста вл ен и я тезауруса Представление тезауруса на человекочитаемом носителе, на экране или в печатной форме, воз­ можно с помощью следующих приемов: а) единая запись — это основная форма представления тезауруса, включающая статьи дескрип­ торов и аскрипторов и выборочно некоторые или все их отношения, коды и примечания; 51
ГОСТ Р 7.0.91— 2015 b) алфавитное упорядоченно, обеспечивающее доступ к понятиям по словам, которыми пользо­ ватели первоначально выразили понятия. В печатном тезаурусе такая форма служит одним из указате­ лей, а при компьютерном представлении она способна дополнять функцию прямого поиска; c) иерархическое упорядочение на основе отношений выше/ниже позволяет расширять и уточ­ нять понятия при индексировании и поиске; d) классиф икационное упорядочение позволяет просматривать предметную область по связям понятий, e) графическое отображение показывает термины и их отношения наглядным образом; f) пермутационный указатель облегчает поиск слов, входящих в состав многословных терминов. Эти различные приемы дополняют друг друга. Важно, чтобы был обеспечен алфавитный доступ, либо путем прямого поиска, либо по алфавитному указателю, как описано в перечислении Ь). Должен иметься по крайней мере один из указателей — с) или d), дающ ий систематический обзор тезауруса. Дополнительные данные о каждом понятии, такие как лексические примечания и отношения с другими понятиями, могут быть показаны в каждом из этих указателей. Тезаурусы могут сильно отличаться в оценке относительной важности и функций различных указателей, как в части упорядочения, так и в части представляемой в этих указателях информации. Графический указатель может предоставлять полезный общий обзор области знания, но этот указатель сложен для создания и ведения, и его струк­ тура затемняется, если он содержит слишком много дополнительных данных. Пермутационный указа­ тель служит как справочник всех слов во всех терминах (дескрипторах и аскрипторах), для этого можно использовать форматы KWIC (key word in context — ключевое слово в контексте) или KWOC (key word out o f context — ключевое слово вне контекста). Этот указатель полезен для печатных тезаурусов, но обычно не требуется для автоматизированных систем, в которых возможен поиск по последователь­ ности букв. 12.1.3 Н отация и с в я зи м е ж д у указател ям и Алфавитный указатель в печатной форме должен показывать место термина в других указателях с помощ ью либо номера строки, либо системы обозначений, либо с помощ ью указания термина выс­ шего уровня в иерархии данного термина (если иерархии тезауруса не слишком обширны). Для связи с графическим указателем от алфавитного указателя может понадобиться система координат. При выво­ де указателей на экран компьютера могут не понадобиться отображаемые символы связей, поскольку автоматически сформированные гиперссылки должны обеспечивать легкое переключение от одного указателя к другому, сохраняя при этом позиционирование на рассматриваемом термине. В классиф икационном указателе нотация может отображать классиф икационную структуру и быть рассчитана на создание кодов предкоординированных классов, отражающих сложные понятия. Любая система нотации должна допускать введение нового понятия в любой точке классиф икационно­ го упорядочения терминов. 12.2 А л ь те р н а ти в ы стил ей ото бр аж ен и я тезауруса 12.2.1 О бщ ие полож ения Существует слиш ком много возможностей разных стилей представления тезауруса, что не по­ зволяет их все здесь проиллюстрировать. В пунктах от 12.2.2 — 12.2.6 приведены примеры основных типов указателей. Чтобы облегчить сравнение и сопоставление, они иллюстрированы общим набором терминов, выражающих понятие «cameras = фотои кинокамеры» и связанные с ним. Иллюстрации подобраны так. чтобы содержать все основные типы отношений, а также некоторые факультативные элементы, такие как метки узлов и нотация, которые представляют сложность для ведения. Там, где присутствует нотация, использована простая система номеров строк. П р и м е ч а н и е — В этом разделе не рассматриваются многоязычные тезаурусы. Они описаны в 12.3. 12.2.2 П ре дставл ени е о д н о й с л о в а р н о й с та тьи Представление одиночной записи о понятии или дескрипторе должно обычно начинаться с д е ­ скриптора, за которым следуют другие поля словарной статьи в следующем порядке: a) СС — код понятия или обозначение, указывающ ее место термина/поиятия в иерархии; b) SN — лексическое примечание; c) UF — ссылки на эквивалентные аскрипторы; d ) ТТ — ссылки на термины высшего уровня; e) В Т — ссылки на вышестоящие термины; f) NT — ссылки на нижестоящие термины; g) RT — ссылки на ассоциированные термины; 52
ГОСТ Р 7.0.91— 2015 h) DEF — определение дескриптора (см. 6.2.3): i) HN — историческое примечание (см. 6.2.4): j) SC — предметная категория или другая понятийная группа, к которой относится понятие. Здесь ссылки SN и UF даны в начале списка, поскольку они проясняют значение понятия. За ними следуют отношения к другим понятиям. DEF и HN идут в конце, поскольку рассматриваются как административные поля, используемые больше редакторами, чем при поиске или индексировании. Их возможно также указывать сразу после лексического примечания, тем самым все текстовые поля будут собраны вместе. Однако важно обеспечить, чтобы DEF и SN не смешивались в том случае, если и то и другое поле присутствует. Д ля аскрипторных статей порядок полей следующий: - USE — ссылка на соответствующий дескриптор (предпочтительный термин); - DEF — определение аскриптора (непредпочтительного термина) (см. 6.2.3); - HN — историческое примечание (см. 6.2.4). Д ля отдельных приложений выбор и последовательность элементов могут быть изменены. На­ пример. редактор тезауруса может захотеть для собственного использования включить некоторые ад­ министративные поля (см., например. 15.2.4.15.2.9. 15.2.14). 12.2.3 А л ф а в и т н ы й ука за те л ь 12.2.3.1 В алфавитном указателе все термины (дескрипторы и аскрипторы) приводятся в единой алфавитной последовательности. Дескрипторы и аскрипторы должны по возможности различаться ти­ пографским способом, так чтобы непредпочтительный статус аскрипторов был очевиден. (В печатном издании для этого можно применять курсив). В некоторых случаях будет достаточен простой список терминов. В большинстве случаев в указатель включают полные записи каждого термина согласно 12.2.2 . 12.2.3.2 Пример такого указателя приведен на рисунке 5. Кроме указателя, обеспечивающего вы­ дачу единой тезаурусной статьи, этот указатель является простейшим типом представления тезауруса с точки зрения его формирования и ведения. Чаще всего принимается соглашение указывать только непосредственно вышестоящие и нижестоящие термины: при этом экономится место, но другие уровни иерархии перестают быть очевидными. 12.2.3.3 Можно показывать и больше одного уровня иерархии, но тогда следует указывать номер уровня вышестоящих и нижестоящих терминов, как делается в примере, приведенном ниже. Однако если использовать это соглашение, то место, необходимое для показа всех уровней иерархии всех терминов может оказаться слишком большим.ПримерполорогиеВТ1жвачныеВТ2 млекопитающиеВТЗ позвоночныеNT1 буйволы NT1 крупный рогатый скотNT2 мясной скотNT2 молочный скотNT1 яки. 53
ГОСТ Р 7.0.91— 2015г 35 mm cameras dvng equipment physical properties СС: Н012 CC: 0001 CC A202 • ВТ «го cameras ВТ equipment ВТ: properties i awaking* NT: aqualungs NT pressure ' СС 0002 diving sorts temperature ВТ diving equipment face masks physicists swimming fins j camera accessories CC POOS underwater cameras ВТ: people1 CC: H002 RT. diving ВТ photographic equipment RT physics NT: flashguns diving suits physics lignt meters CC: D003 CC P000 tripods ВТ diving equipment ВТ: fleas of work RT: cameras NT: diy suits RT physicists wet suits camera components Polaroid» cameras СС: H006 dry suits USE instant picture cameras ВТ cameras end camera CC: D004 pressure components ВТ diving suits CC A208 NT: camera tenses equipment ВТ: physical properties camera viewfinders CC- A001 properties camera lecees NT: drvng equipment CC- A200 СС: H007 etectncally-pcwered equipment NT physical properties 8T camera components fixed equipment human powered eqixpment reflex cameras camera viewfinders photographic equpment CC. H017 CC: HOOB physics equipment SN: Cameras In which the image is ■ ВТ camera components portabte equipment reflected on to a giass cameras exposure meters screen for composing and i cc. ноое USE: light meters tocusmg. ВТ cameras and camera ВТ: cameras components face masks NT: angle tens reflex cameras NT digital cameras CC- D006 rwn fens reflex cameras film cameras ВТ: (*vwg equipment single lens reflex cameras instant peture cameras fields of work CC: H018 plate cameras CC: A300 UF:S L R c a m e ra s reflex cameras NT diving ВТ: reflex cameras spsoal-purpose cameras photography RT camera accessories physicsS IR cameras photography USE: single tens reflex cameras film cameras cameras and camera components CC HOI1 special-purpose cameras CC HC05 ВТ: cameras CC: H02I ВТ: photographic equpment NT 35 mm cameras ВТ cameras NT camera components medium format cameras NT: stereo cameras cameras miniature cameras underwater cameras colour instant picture cameras stereo cameras CC: A204 CC. M015 CC: H022 ВТ: optical properties SN: Cameras which produce a finished ВТ- speciat-purpose cameras contrast pnnt direcCy swimming fine CC A206 UF Potorod cameras» CC: D007 ВТ: optical properties ВТ: cameras ВТ- dvng equipment d ig ** earner» people temperature CC' H010 CC A100 CC: A209 UF*. NT: adults ВТ: physic») propertiesu n d e rw a te r d ig ita l c a m e ra s ВТ: cameras children tripods divers divers CC: H004 infants CC: 0008 ВТ. camera accessories models (people) ВТ: people photographers twin tens reflex cameras RT: diving physicists CC: H019 diving ВТ. reltex cameras photographic equipment СС: DOOO CC MOOl underwater cameras ВТ: folds of work ВТ equipment CC. 0028. H023 RT divers NT: camera accessories UF+ underwafer dgra.1 ca m eras diving equpment cameras and camera components ВТ- special purpose cameras RT: photography diving equipment RT diving photography CC: H000u n d e rw a te r d ig ita l cameras ВТ fields of wont USE digital cameras RT: camerasf underwater cameras photograpners ______photographic equemerfl_______ Рисунок 5 — «Алфавитный указатель тезаурусных терминов (некоторые термины пропущены для экономии места») 54
ГОСТ Р 7.0.91— 2015 12.2.4 И е р ар хиче ски й указател ь Иерархический указатель для одного языка формируют путем размещения каждого ряда нижесто­ ящих терминов под их родительским вышестоящим термином. Другие отношения (такие как отношения эквивалентности и ассоциации) обычно в этом указателе не показывают, поскольку это сделало бы структуру указателя трудной для восприятия. В результате получается множество иерархических дере­ вьев. возглавляемых различными терминами высшего уровня (не имеющими над собой вышестоящих). В противном случае после произведения фасетного анализа на верхнем уровне тезауруса, все термины одного фасета могут сгруппироваться в одну иерархию, возглавляемую меткой узла, содержа­ щей имя фасета, как показано на рисунке 6. (Имена фасетов на рисунке 6 — «objects = объекты», «feld o f work = область деятельности», «people = люди», «properties = свойства»). Когда фасетный анализ применяется в такой форме, термины группируются в фасеты согласно базисным категориям тех понятий, которые эти термины представляют (см. 10.2.1 и раздел 11). несмо­ тря на то. с какой областью или областями эти понятия обычно соотносятся. При сравнении этого подхода с изложенным в 12.2.5.2, где первоначальная организация терминов идет по темам, и фасеты формируются внутри тем. можно отметить следующие преимущества перво­ начального проведения фасетного анализа: a) менее вероятна необходимость серьезной перестройки указателя в случае, если некоторое по­ нятие изменит свою тематическую область; b ) при взаимодействии с другим и инф ормационными центрами можно ожидать достижения боль­ шего уровня согласованности. Однако необходимо отметить и следующие недостатки: a) организация по фасетам разбрасывает понятия, связанные внутри своей тематики, по разным группам; b ) понятийный базис, на котором построен тезаурус, делается менее очевидным; c) если тезаурус охватывает все или широкий диапазон дисциплин, то вряд ли объединение эле­ ментов и процессов различных дисциплин приведет к образованию разумной последовательности тер­ минов. Следовательно, такой вид указателя целесообразно использовать только в случае тезаурусов, посвященных одной определенной дисциплине. 55
ГОСТ Р 7.0.91— 2015(objects)(objects) (com.) equpment equipment fconf) «equipment by portability*«equipment by application» (com ) fixed equipment physics equipment . . portable equipment . optical instruments «equipment by рон-ег source» . light meters. . electn caiy- роле red equipment microscopes human-pcwered equpmem «equipment by application»(fields of n-ork) diving equipment «ей» of work . aaualung* . diving .Cfiving suits . photography . . . dry suits . physics wet suits . . , (ace masks(people) . . . swimming fins people . underwater cameras«people by ege> . photographic equipment infants . . . camera accessories children . . . dash guns adults ___fight meters«people by profession» . . . . tripods ..divers . . . cameras and camera components .. models (people) . . . . camera components photographers ........ camera lenses physicists ........camera view fnders . . . . cameras(properties} ___ «cameras by imaging technique» properties . . . . digital cameras physical properties . . . . fifin camoras .. optical properties . . . fifln size» . . . colour ............ .3 5 mm cameras contras) ..............medium format cameras . , . luminance ..............miniature cameras luminosity ..........Instant picture cameras . . pressure ..........plate cameras .. temperature . . . . «cameras by viewing method» reflex cameras .......... single lens reflex cameras ..........twin lens reflex cameras .......... viewfinder cameras special-purpose cameras . . stereo cameras . . . . underwater cameras Рисунок 6 — Иерархический указатель тезаурусных терминов, упорядоченный по фасетам 56
ГОСТ Р 7.0.91— 2015 12.2.5 К л а с с и ф и ка ц и о н н ы й ука за те л ь 12.2.5.1 Упорядочивание терминов тезауруса по тематическим полям Организация терминов тезауруса по дисциплинам или тематическим областям подобна подходу, используемому при разработке библиотечных классиф икаций, когда все начинается с распределения универсума понятий по классам основных дисциплин. Применительно к тезаурусам категории поня­ тий сначала необходимо сгруппировать так. чтобы это соответствовало интересам пользователей. Эта техника применяется к тезаурусам, охватывающим некоторый диапазон тематических областей. Те по­ нятия, которые принято связывать с некоторой областью, например «искусство», собираются вместе и эксплицитно отграничиваются от понятий, принадлежащих другим областям интересов, например таких как «экономика» или «физика». Этот подход также может быть применен и к таким тезаурусам, которые охватывают только одно тематическое поле. Так. лексику тезауруса, посвященного медицине, сначала распределяют по таким подполям, как «хирургия», «физиология», «анатомия» и т. п. Кроме того, в качестве расширения ядер- ных понятий в тезаурус могут быть включены и понятия из таких других дисциплин как «управление», «право», «обработка данных», которые следует отделять от медицинских терминов. Предметный подход имеет то преимущество, что позволяет организовать понятия в группы, кото­ рые в целом соответствуют образу мыслой пользователей. Трудность заключается в том. что одно и то же понятие часто используется в нескольких различных областях, например, если тезаурус охватывает как лесное хозяйство, так и агрономию, то он будет содержать много понятий, таких как «растение», которые встречаются и там. и там. Такие понятия следует либо повторять в каждом поле, где они ис­ пользуются, либо включать в отдельный список общ их понятий, не ограниченных использованием в каком-либо одном поле. Группирование понятий по тематическим полям с алфавитной или тематической упорядоченно­ стью родственных терминов и с расположением узких понятий под соответствующими широкими, со­ блюдая абзацный отступ, приводит к построению такого указателя, который хотя и выглядит как ие­ рархический, но в котором, подчиненные термины могут не подчиняться правилам для иерархических отношений, описанным в п.10.2. Следовательно, метки узлов, дающ ие имена фасетам, должны быть введены в такой указатель для того, чтобы отметить, где следуют различные фасеты и где отношения не соответствуют иерархии по правилам раздела 11. 12.2.5.2 Фасетная организация терминов тезауруса внутри предметных областей На практике различные подходы, описанные в 12.2.4 и 12.2.5.1 часто комбинируют, как. напри­ мер, в случае, когда тезаурус сначала организуют по тематическим полям, а далее подразделяют по фасетам. На рисунке 7 проиллюстрирован комбинированный подход на примере тезауруса, который вклю­ чает тематику подводного плавания, фотографии и физики. В каждом из этих полей показаны только те дескрипторы, которые относятся только к этому полю. Термины, общие для всех трех полей, представ­ лены в разделе общих терминов. После первичного деления по тематике следует деление по фасетам. На рисунке 7 каждый тематический раздел поделен на фасеты «объекты», «люди» и «свойства». В печатном указателе часто бывает необходимо ограничить общий размер продукта путем выбора одного основного места для каждого термина. Термин может быть повторен и в других местах, но про­ странство экономится за счет исключения повторного перечисления нижестоящих терминов. Предпо­ лагается. что пользователь может посмотреть основную запись термина, где найдет полную иерархию. Так на рисунке 7 основное место термина «properties» есть А200. где показаны нижестоящие термины «chemical properties», «physical properties» и все другие. В раздело подводного плавания единственные ф изические термины, которые были включены, это «pressure» и «temperature». В фотографическом разделе полностью приведены только оптические свойства. 57
ГОСТ Р 7.0.91— 2015 А000 gorvoral terms H000 photography(objects)(objects) АС01. equpment . equipment (A001) by
.oortatxWy> hoot . . photographic equipment AG02 fixed equipment H002 . . . camera accessories АООЗ portable equipment H003 . . . flash guns ,, light meters (PC03) А004 cte«rc8«y-powered equipment H004 . tripods АС05 . human-powered equipment H005 . . , cameras and camera components•equipment by appfcatioo» H006 . . . camera components diving equipment (D001) M007 camera tenses photographic equipment (H001) H008 camera viewfinders .. physics equipment (P001) H009 . . . cameras(oeople) ------ А100 people H010 ..........digital cameras H011 . . . . film cameras А101. nfants ftVn size» А102 . . . children H012 . . , 35 mm cameras А103 . . . adults H013 medium format cameras . H014 . , miniature cameras , . divers (D008) HOI 5 . . instant picture cameras . models method» . . . physics* (P005) H017 . . . . reflex cameras(properties) H018 single tens reflex cameras А2С0 propertes HOI 9 ......... tvwn lens reflex cameras А201 ,. chemical properties HO20 . . viewfinder cameras А202 physical properties H021 . . . special-purpose cameras А203 . optica! properties H022 . . . . stereo cameras А204 .. . colour H023 . . . . underwater cameras А2С6 . . . . contrast H024 ......... high pressure underwater cameras А2С6 . . . luminance(people) А207 . luminosity А2С8 pressure. people (A100) А209 . . . temperature H025 models (people) ноге photographers(Helds of wort0(properties) А300 fields of wot* properties (A2O0) . diving (DOOO) . . physeal properties (A2Q2) photography (H000) . optical properties (A203) . physics (PCOO) . . . colour (A204) . . . . contrast (A206) DOOO diving luminance (A205)(objects) luminosity (A207) equipment (A001) D001 . diving equipment POOO physics D0O2 . . . aqualungs(objects) D003 ., diving suits equipment (A100) 0004 ----- dry suits P001 physics oquapment D005 . . wetsuits P002 . optical instruments особ . . . face masks P003 . .. »ght meters DC07 . , swimming fins P004 .. microscopes underwater cameras (H023)(people)(people) people (A100). people (A100) POOS physicists 0008 . divers(properties) (properties) properties (A200) . properties (A2G0) physical properties (A202) . . physical properties (A202) . . pressure (A208) . . . temperature (A209) Рисунок 7 — Классиф икационный указатель тезауруса, организованный по фасетам внутри тематических полей 58
ГОСТ Р 7.0.91— 2015 На рисунке 7 также проиллюстрировано использование обозначений для ссылки на термин в классиф икационном указателе. В этом примере термины имеют только одно обозначение, соответ­ ствующее их основному месту. Когда термин повторяется в другом месте, он сопровождается своим обозначением (в скобках), которое помогает пользователю найти основное место термина. Некоторые тезаурусы позволяют терминам иметь дополнительные обозначения, так чтобы каждое повторение могло быть легко локализовано. Выбор основного местоположения терминов является обычным методом сокращения объема пе­ чатных тезаурусов, что. однако, при полном изучении понятия приводит к необходимости осуществле­ ния дополнительных шагов. Выдача на компьютере может сделать процесс просмотра много легче, если пользователи могут разворачивать и сворачивать иерархию, выбирая только те детали, которые они хотят видеть. 12.2.5.3 Расширенный классификационный указатель К типу указателя, который приведен на рисунке 7. чтобы представить термин во всех его локализа­ циях. могут быть добавлены все данные, описанные в 12.2.2. Хотя на рисунке 8 это и не осуществлено в полной мере, он иллюстрирует включение дополнительной информации — лексических примечаний, аскрипторов. ассоциативных терминов, но не иноязычных эквивалентов. П р и м е ч а н и е — Сравните, например, underwater cameras (подводные камеры) на Н023. Включение дополнительных данных увеличивает объем. Д ля противодействия этому на рисунке 8 принято иное соглашение относительно повторения иерархий. Сравнивая рисунок 8 с рисунком 7, мож­ но увидеть, что упоминание «pressure» и «temperature» в разделе рисунка 8. посвященного «подводно­ му плаванию», в отличие от соответствующего места рисунка 7 не включает вышестоящих над этими терминами терминов «physical properties» и «properties». Чтобы их найти, пользователь должен пройти по связям, указанным метками А208 и А209, где показана полная иерархия. Кроме экономии места этот подход позволяет избежать создания ложного впечатления о содержании широких терминов, таких как «свойства» или «физические свойства», когда они встречаются во вторичных локализациях. В заключение, обзор преимуществ указателей, приведенных на рисунках 6 — 8 следует отметить, что ни один из них не может быть рекомендован в качестве наилучшего во всех случаях. Каждый из под­ ходов имеет преимущества и недостатки, оценка важности которых меняется в зависимости от контек­ ста использования. Возможны и д ругие варианты: упорядочение по понятийным группам (см. 15.2.18). Однако необходимо, чтобы в дополнение к обычному алфавитному указателю пользователям была доступна, по крайней мере, одна форма систематического, иерархического или классификационного указателя (см. 12.3.4 относительно вопросов многоязычных тезаурусов). 59
ГОСТ Р 7.0.91— 2015 АООО general term s photography (c o o t) b y р о Л а Ш у * cameras art! camera оотрюпегй* (con*) А002 fixed equipment носе . camera ccmpcnerte АООЗ pertatre equpmer* HC07 . camera tenees «ецадрпмо.* b y power «outre» НСОЧ camera н w inde r* А0«М doctnceily-pcwered equpment HC09 А0О5 human-powered ©qupmert < c М Ш by a© a g in g te c h n iq u e » чадрлгеп! b y apptaahon» H010 . d ig iU t c a m e ra s diving eqjpment [D0C1] UF* undtnwter tS&tei cameras photograph© ©qupmert [H001] H011 . Ш cameras physios eaupment (POOt| b y
ftVn so»> «peopte» H012 35 nvr cameras А1С0 people Н01Э •nedum toirvit cameras «people by где» H014 . miniature cameras AT01 nfarts 4015 inetsnt picture cameras А'02 chicten SN Cameras which produce a finished print direct* АЮЗ anuts UF ДАгеи*» cameras . «people b y pvw'csswi» H016 pfste cameras dheis loooai «cameras by viemirg method» mcctets (people) IH02SJ H317 reflex cameras photographers [H026] SN Cameras ю which the таре » reflected en to phy8O8ts|P005J a glass screen tor composing and tocusmg «preperves» note single lens njrte* cameras А200 preporfles UF S ift cameras А201 cham car properties НЭ19 tan ten* reflex cameras А202 physical properties НЭ20 . . viewfinder cameras А203 .. optical properties НЭ21 special-pupose cameras А20-1 colour НЭ22 stereo cameras А205 .. contrast H323 underwater cameras А206 'uminance SN cameras far taking petures inter water RT lgot meters (P003! UF*: underwaterdigitalcameras А207 ummoeity ВТ ctvmg equipment (ООО IJ А208 .. pressure H324 h ^ i pressure underwater cameras А209 temperature< p « o p h * -.fietos Ы »©rfr> peepte |A100] АЗОО fields of work H32S models (people) d vhg [OCCCJ Ю26 photographers . photography [HOOO] «properties» physics (РООЭЗ . optical pjopertiee (A2C3) D000 diving СОЙОТ [A204j contrast (A20S) «ejects» luminance |A205; D001 dr»ing ecupreent tjrrlnosity (A207) BT egupimsnl [AOO'I D002 aqualungs POOO physics 0003 Ovng suits «objects» D0C4d ry suits PCOI physcs equipment 0005 . wet suils 87: equpmsnt jA100) 0006 face masks PIJ02 optical rwumenes СО07 swtmmmgflns P003 HJht meters underwater cameras [НЭ231 UF e/posora meters R1 tom range [A205) соое dn«rs POW m*70SCC039 BT pecpre[Ai00J « p e o p le » «properties» POOS physicists pressure [A2C6] ВТ. ресрГе JA*03| temperature |A209j «•p'Operttes» нооо photography p h y s ic a l p ro p e rtie s (A 2 0 2 ) . optical properties (А20Э] «овуесм» cotour |A20fl| Н001 photographic equipment contrast [A205) BT: equipment (A001I tornintnee |A206] КЮ2 camera аэсемопес luminosity [A207] нооз flashguns pressure (AJCe] IgM meters [РСОЗ] temperature |A208J Н004 . tnpode Н005 cameoe and сал^вез ccirpcnenta Рисунок 8 — Классификационный указатель тезауруса, организованный по тематическим полям, с дополнительной информацией — отношениями SN. UF. RT 12.2.6 О тображ ение л о л и и е р а р х и че с ки х о тн ош ен и й 12.2.6.1 Стандартное обращение с полииерархическими отношениями {см. 10.2.5) показано на рисунке 5. где термин «underwater cameras» имеет два вышестоящих термина «special purpose cam ­ eras» и «diving equipment». Следовательно, «underwater cameras» появляется в двух позициях фасета 60
ГОСТ Р 7.0.91— 2015 оборудования на рисунке 6. Если имеются еще и нижестоящие термины, то они также должны быть указаны в обеих позициях. 12.2.6.2 В классификационных и иерархических указателях печатного тезауруса, объем которых строго ограничен, ввиду того, что для полииерархичесхих терминов требуется много места, может быть принято иное решение. А именно, термину разрешается иметь глубокую иерархию нижестоящих терми­ нов. и. кроме того, длинное лексическое примечание, несколько синонимичных аскрипторов и ассоции­ рованных терминов. Как показано на рисунках 6 и 7. для такого термина можно выбрать одно основное местоположение, а в других позициях показывать сокращенную информацию. Например вариант с тер­ мином «underwater cameras» на рисунке 8. 12.2.6.3 Компьютерная выдача должна позволять пользователям просмотр всех отношений полииерархического термина при каждом появлении. 12.3 П редставл ение и оф о р м л е н и е м н о го я з ы ч н ы х те за ур усо в Раздел 12.3 опущен. В Российской Федерации вопросы многоязычных тезаурусов могут регули­ роваться по И11. 12.4 В о п р о с ы я з ы к о в и ко д и р о в к и с и м в о л о в Раздел 12.4 опущен. В Российской Федерации вопросы многоязычных тезаурусов могут регули­ роваться по И 11.13 Управление разработкой и ведением тезауруса 13.1 П р о е кти р о в а н и е тезауруса 13.1.1 О продоленио целей Разработка тезауруса — это трудоемкая сложная работа, предполагающая долгосрочные обяза­ тельства. поэтому необходимо обосновать целесообразность такой разработки. Следовательно, пре­ жде чем будут затрачены значительные сродства и время, должны быть четко определены цели работы и даны ответы на следующие вопросы: a) кто и для чего будет использовать тезаурус; b ) будет ли разработчик ограничен условиями сущ ествующего программного обеспечения, с кото­ рым он должен работать: c) насколько глубокими должны быть знания пользователя о предметной области тезауруса и в вопросах использования тезаурусов. Различные категории пользователей (руководители верхнего уровня, персонал поддержки инфор­ мационных технологий или предполагаемые конечные пользователи) предполагают разные варианты того, каким тезаурус будет и, как он будет работать. В качестве ключевого шага к обеспечению успеш­ ной командной работы, положение о целях создания тезауруса должно быть согласовано со всеми заинтересованными сторонами. 13.1.2 О продоленио па р а м е тр о в тезауруса Когда будут определены цели, назначения и круг пользователей, должна быть определена сфера охвата предметной области и стиль тезауруса. Должны быть определены следующие свойства: a) будет ли тезаурус использоваться в печатной или электронной форме, или в обеих формах: b ) с помощ ью каких указателей его следует предъявлять пользователю: c) требуются ли дополнительные форматы для включения тезауруса в другое системы, такие как системы поиска и индексирования; d) какой формат необходим для внесения изменений и как часто это потребуется делать. Д олжно быть принято решение о факультативных свойствах, например, решение о том. следует ли различать разные типы иерархических отношений по 10.2.1, вводить ли какие-либо пользователь­ ские отношения (см. 10.4), показывать ли в выходных формах метки узлов и важно ли сохранять дан­ ные определений, источников и дат работы с тезаурусом. На более детальном уровне должны быть проработаны соглашения относительно использования единственного/множественного числа существительных, правописания и заглавных букв. Может ока­ заться полезным рассмотреть практические ограничения, такие, как максимальная допустимая длина 61
ГОСТ Р 7.0.91— 2015 термина, круг необходимых знаков диакритики и специальных символов, и требуется ли ограничить число уровней иерархии. 13.1.3 О пределение и н во н та ря р е с у р с о в 13.1.3.1 О бщие положения На этапе планирования работ по тезаурусу должны быть определены ключевые ресурсы — пер­ сонал, финансирование, программные средства и словарные ресурсы. Если тезаурус должен быть многоязычным, в бюджет должны быть заложены дополнительные накладные расходы на общение, а также стоимость специализированных программных средств, которые могут понадобиться. 13.1.3.2 Человеческие ресурсы Человеческие ресурсы должны включать: a) руководителя на верхнем уровне менеджмента и. желательно, общ ее корпоративное соглаш е­ ние о проекте тезауруса; b ) интерес и поддержку со стороны пользователей, особенно экспертов по терминологии в ряде разделов предметной области; c) информационных работников, разбирающихся в предметной области и обладающих способно­ стью, а ещ е лучше опытом работы с тезаурусами, которые могли бы принять на себя основную нагрузку в процессе создания тезауруса; d ) поддержку со стороны профессионалов в информационных технологиях, которые способны помочь в установке и адаптации системы управления тезаурусом, в программировании для интегриро­ вания выходных форм тезауруса в системы, где он будет применяться, и в ежедневном обслуживании нормальной работы устройств на рабочем место разработчиков. Если в работе будет участвовать более одного редактора, должно быть проведено такое тщатель­ ное планирование работ, которое исключило бы возможность одновременного конфликтующего ввода данных в одно и то же место тезауруса. Если создается многоязычный тезаурус, то персонал разработчиков и пользователей в идеале должен обладать следующими ниже перечисленными свойствами: - хорошим пониманием каждого из используемых естественных языков; - хорошим знанием предметной области; - хорошим пониманием различия между переводом и установлением терминологических эквива­ лентов для целей информационного поиска. Такие специалисты редки и обычно разбросаны по разным странам. Поэтому важно поддержи­ вать постоянное интенсивное и эффективное общение членов коллектива разработчиков. Должны быть достигнуты соглашения по процедурам и форматам безошибочного обмена структурированными данными. 13.1.3.3 Словарные ресурсы До начала построения тезауруса должны быть изучены имеющиеся словарные ресурсы. Могут оказаться полезными все следующее ресурсы. a) существующие тезаурусы и классиф икационные системы с предметным охватом, полностью или частично совпадающ им с требуемым. Может оказаться экономически выгодным просто адаптиро­ вать имеющийся тезаурус без каких-либо изменений. Однако более частотной является ситуация, когда в зависимости от авторских прав из существующих словарей удается заимствовать и/или адаптировать лиш ь определенную часть. Существующие разработки надо рассматривать как источник решений по структуре и составу терминов; b ) коллекции терминов и часто задаваем ы х вопросов, которые коллеги смогли собрать в ходе своей работы: c) указатели содержания существующих баз данных или другие подобные справочные средства, указывающ ие точки входа в зависимости от тематики материалов. Если существующие близкие по те­ матике базы данных заицдексированы по контрольному словарю, может представиться возможность получить сведения обо всех использованных индексных терминах и о частоте их использования; d ) буфер запросов подходящего сайта, показывающий наиболее часто используемые поисковые термины; с) стандартные справочные средства, такие как словари, терминологии, номенклатуры и энцикло­ педии полезны скорее для подтверждения значений терминов и обоснования иерархической структу­ ры. чем для выбора терминов. 62
ГОСТ Р 7.0.91— 2015 13.1.4 Р аспределение отв е тс тве н н о с ти На ранних стадиях разработки должен быть назначен редактор, который возьмет на себя ответ­ ственность за ведение проекта на всех его этапах, возможно включающее как составление первона­ чальной версии, так и ведение тезауруса в дальнейшем. В зависимости от объема работ в помощь редактору может быть образована редакционная коллегия, а возможно и коллегия рецензентов. Когда редактирование тезауруса соединено с анализом эффективности предметного индексирования по те­ заурусу информационных ресурсов, это дает определенные преимущества. 13.1.5 В ы б о р п р о гр а м м н о го об е спечен и я Хотя тезаурус может быть создан без какого-либо программного обеспечения, такой ход событий не может быть рекомендован. Повышение эф фективности разработки и возможность предотвращения канцелярских ош ибок лежит на пути использования специально разработанной системы управления тезаурусом. Д ля выбора программного обеспечения должен быть составлен перечень требований на основе положений раздела 14 и других соображений. Следует оценить все продукты, имеющиеся на рынке. Если ни один из них не обладает всеми требуемыми свойствами, может оказаться необходимым опре­ деленный компромисс. Если же компромисс невозможен, следует адаптировать к своим требованиям один из существующих продуктов, либо разработать новое программное обеспечение. 13.2 Р анняя с тад ия с о зд а н и я 13.2.1 Как и когда н ачи н ать Поскольку тезаурус создается для поддержки индексирования и поиска в базе данных или другом ресурсе, тезаурус должен быть создан до начала наполнения базы данных, чтобы обеспечить систе­ матичность индексирования. Однако до построения значительной части базы данных бывает трудно решить, какие термины необходимы в тезаурусе. Для того чтобы исключить последующее переиндексирование, хотя бы часть тезауруса должна быть готова заранее. О днако следует предусмотреть не­ обходимость дальнейшего продолжения работы над тезаурусом. Существуют программные средства, позволяющие проанализировать совокупность текстов в тре­ буемой предметной области и выявить значимые слова и фразы с их частотой использования. Некото­ рые программные пакеты имеют возможность скомпоновать выявленные термины в структурирован­ ный формат. Хотя автоматически созданный тезаурус скорее всего не будет соответствовать качеству интеллектуально созданного тезауруса, но как источник идей его можно использовать для ускорения интеллектуального процесса. 13.2.2 С б о р те р м и н о в и п о н я ти й Как отмечено в 5.1. термины в тезаурусе это только представители понятий, на которых основыва­ ется тезаурус. При построении тезауруса конечная цель состоит в сборе и организации понятий, но на практике это достигается сбором терминов и упорядочением их так. чтобы они адекватно представляли требуемые понятия. Предпочтительные источники терминов перечислены в 13.1.4. перечисления а ) — d). Необходимо иметь полный набор литературы, освещающей центральные вопросы разрабатываемой области зна­ ния. Как описано в 13.2.1, для выявления ключевых слов и фраз в текстах может быть использована ав­ томатическая технология. Поскольку сравнительно просто исследовать материал, который уже введен в систему, необходимо, как можно больше внимания уделять выяснению того, что именно потребуется искать пользователям, например, анализировать списки запросов, которые были зарегистрированы справочной службой. При выработке предложений по включению в тезаурус понятий и терминов следу­ ет учитывать и мнение самих пользователей. На начальной стадии нет необходимости принимать решения о правильном представлении по­ нятий. Первоначальная задача состоит в собирании имеющихся терминов с указанием их источника и частотности. 13.2.3 А н а л и з те р м и н о в Еще до ввода в тезаурус собранные термины должны быть рассортированы в систематическом порядке. Если система ведения тезауруса не обеспечивает поддержку этой задачи, то для первона­ чальной сортировки могут быть использованы стандартные программы персонального компьютера, на­ пример, электронные таблицы. При этом, если термины поучены из машиночитаемого источника, то этот процесс выполняется легко и быстро. Когда собранные термины будут записаны в электронных та­ блицах с их источником и частотностью, следует их распределить по предметным областям и фасетам (см. раздел 11) так, чтобы сходные термины со всеми их синонимами и вариантами оказались рядом. 63
ГОСТ Р 7.0.91— 2015 Хотя классиф икационная и фасетная структура, используемая на этой стадии, может быть рудиментар­ ной и не определяет возможную структуру тезауруса, она помогает выработке представления о такой структуре. Главным результатом этой аналитической стадии должен быть список или набор нескольких списков терминов, сгруппированных по темам или фасетам с указанием для каждого термина источни­ ка и частотности. Вооруженный этими данным, редактор имеет возможность начать систематическое построение тезауруса. 13.3 П остро ен и е тезауруса 13.3.1 О с н о в н ы е по ло ж ен и я Термины должны обрабатываться по тематическим/фасетным группам или по иерархиям. Группы синонимов и почти синонимов должны обрабатываться совместно, между ними должны быть установ­ лены отношения эквивалентности. На этой стадии следует аккуратно выбирать термины и их иерархи­ ческие отношения, принимая во внимание возможное дублирование, пересечение, пропуск терминов и необходимую степень подробности. В этом процессе могут быть выработаны и введены лексические примечания к терминам. Лучш е всего, если запоминание даты ввода и формирование идентификатора термина будет осуществляться автоматически с помощью программного обеспечения, и не потребуется вводить их вручную с клавиатуры. Если при предварительном сборе материала окажется, что существует тезаурус, определенная часть которого может быть заимствована, открывается возможность ввести ее непосредственно в ис­ пользуемую систему ведения тезауруса. Это сократит время, особенно если программное обеспечение позволяет ввод структурированных данных с лексическими примечаниями и отношениями терминов. Но при этом необходимо получить разрешение от правообладателей. В некоторые программные продукты можно непосредственно ввести неструктурированные списки терминов. Это сохраняет не так уж много времени, поскольку необходимо еще вводить отношения и проводить тщательную проверку правописания, которое может быть случайно нарушено. 13.3.2 П о с л е д о в а те л ь н о с ть п о с тр о е н и я тезауруса При работе с иерархиями возникает вопрос, строить ли иерархию сверху вниз или снизу вверх. Необходимо иметь обзор верхних уровней, что обеспечит надлежаще сбалансированное тематическое покрытие тезауруса. Использование этого обзора помогает поместить предложения приглашенных спе­ циалистов и пользователей в контекст общей структуры. С другой стороны, работа на более дробных уровнях имеет тенденцию вскрывать аномалии, спо­ собные повлиять на структуру верхних уровней. Наличие множества понятий нижних уровней иерар­ хии, которые не находят подходящего размещения, говорит о необходимости развития соответствую­ щей надструктуры. Полезны обе стратегии построения и их следует применять комбинированно. Сначала д о работы на нижних уроа»*ях нужно подготовить заготовку структуры верхнего уровня. По мере продвижения ра­ боты на нижних уровнях заготовка верхних уровней должна изменяться в соответствии с возникающи­ ми потребностями. Целесообразно работать с группами иерархически связанных терминов, вводя их совместно с отношениями эквивалентности и иерархии. На этой стадии отношения ассоциации не могут быть вве­ дены столь же легко, поскольку термины на другом конце ассоциаций обычно располагаются в другой иерархии, которую ещ е только предстоит разработать. Ассоциативные отношения обычно вводят на более поздней стадии, когда в системе представлен основной массив терминов. При любой последовательности работ следует проводить контроль качества в таких аспектах как полнота, дублирование, правописание, корректный выбор отношений и т. п. 13.3.3 П остро ен и е м н о го я з ы ч н о го тезауруса При построении многоязычного тезауруса могут применяться три подхода. Выбор подхода за­ висит от степени доступности человеческих, временных и ф инансовых ресурсов. Следует также при­ нимать во внимание контекст предполагаемого использования, например, существует ли одноязычный тезаурус в рассматриваемой области, и использовался ли он для индексирования документов, к кото­ рым надо получить доступ. а) Перевод одноязычного тезауруса Перевод является распространенным и сравнительно недорогим путем построения многоязычно­ го тезауруса. Он особенно выгоден, когда документы поискового массива уже были заиндексированы по одноязычному тезаурусу. Однако, если был принят этот подход, язык исходного одноязычного теза­ уруса приобретает статус доминирующ его языка. Процесс перевода порождает в переводном языке 6 4
ГОСТ Р 7.0.91— 2015 множество версий терминов и структур отношений, которые могут не соответствовать культурным и концептуальным ожиданиям коллективов пользователей в языке перевода. b ) Слияние нескольких различных одноязы чны х тезаурусов. Слияние различных одноязычных тезаурусов является сложным процессом. Следует уважать целостность концептуальных и лингвистических систем и согласовывать их так. чтобы каждый язык мог поочередно выступать в роли исходного языка. Однако, поскольку различные тезаурусы обычно демон­ стрируют разные уровни специфичности и предкоординации, этот подход является наиболее трудным с точки зрения перспектив менеджмента. c) Одновременное построение различных языковых версий тезауруса. Этот третий подход дает возможность всем языкам в тезаурусе иметь равный статус. Каждый язык попеременно становится исходным и переводным и может воздействовать на установление иерархи­ ческих и ассоциативных отношений. Работа должна быть организована таким образом, чтобы терми­ нологическое и структурное согласование, требуемое для поддержания межъязыковых соответствий, делалось не всегда на одном и том же языке. Чтобы обеспечить успешный результат, с самого начала надо аккуратно координировать рабочую группу. 13.3.4 П ри вл е чен и е э кс п е р то в и з а и н т е р е с о в а н н ы х л иц Следует воспользоваться следующими возможностями для привлечения к работе на разных ста­ диях других лиц. a) Специальную терминологию иногда трудно охватить, и она может иметь неожиданные оттенки смысла. Но тот, кто хорошо знает специальную область, может легко проверить, является ли выбран­ ная терминология корректной и правильно ли установлены отношения. Если термины используются неприемлемым для пользователей-экспертов образом, то тезаурусу нелегко будет получить призна­ ние. Следовательно, было бы правильно привлечь экспертов к проверке в ходе разработки тезауруса. Однако, как правило, термины имеют более чем одно значение, и значение, удовлетворяющее одного эксперта, может не получить одобрения другого. Более того, поскольку понятие, наиболее полезное для поиска информации, может иметь значение слегка более широкое или более узкое, чем термин, представляющий его. некоторые эксперты не смогут смириться с подобной неточностью. Привлека­ емым экспертам должна быть хорош о поставлена задача, разъяснен порядок работы и условности контрольного словаря (см. раздел 4). Разработчик тезауруса должен быть готов направлять экспертов и помогать по формированию предложений. b ) О дном у человеку трудно с первой ж е попытки принять все правильны е решения. Большая часть достигается в ходе обсуждения трудных терминов с редакционной коллегией с некоторой до­ лей побочных соображений. Если редакционная коллегия состоит из одного главного редактора, может быть полезным назначить комитет или группу специалистов для проверки разделов работы в процессе выполнения или для оказания консультаций по мере необходимости. Желательно, чтобы этому комите­ ту редакционной проверки были бы представлены на одобрение все элементы тезауруса, прежде чем он будет издан. c) Привлечение к делам время от времени старших руководителей и других заинтересованных лиц может способствовать дальнейшему финансированию, принятию и внедрению конечного продукта. d) Привлечение пользователей может сильно увеличить закупку продукта. Люди, участвовавшие в работе, в большей степени склонны применять ое на деле. e) Привлечение с самого начала экспертов на всех языках многоязычного тезауруса значительно улучшат перспективы его использования пользователями разных языковых сообществ. 13.4 П р е д и сл о в и е к те заур усу Все тезаурусы должны содержать подробное предисловие, которое ясно отражает цели тезауру­ са. а также зачем, как, кем тезаурус разработан. Должны быть освещены следующие вопросы: a) охватываемая предметная область (области) с указанием ядерной зоны и периферийных зон: b ) языки, на которых представлен тезаурус; c) подтверждение, какому национальному или международному стандарту соответствует разра­ ботка; d) смысл всех соглашений, сокращений и пунктуационных знаков, используемых нестандартным способом; e) общее число терминов с отдельным указанием дескрипторов и аскрипторов; 0 правила выбора понятий, включая выбор сложных понятий; д) принятые правила выбора формы дескрипторов, включая ссылки на пособия, которым следо­ вали разработчики, и правила разрешения их противоречий: 65
ГОСТ Р 7.0.91— 2015 h) последовательность расположения и желательно указание, какому национальному или между­ народному стандарту она соответствует: i) указание политики обновлений, включая частоту, сроки и порядок обновлений, а также наимено­ вание и адрес ответственного органа, которому нужно направлять замечания и предложения; j) ссылки и рекомендации в адрес источников, использованных для составления и проверки теза­ уруса. Эти пункты по возможности нужно проиллюстрировать примерами и определениями технических терминов, использованных в предисловии. Если тезаурус предназначен для какой-либо отдельной системы или программы, предисловие должно содержать указание о том, как тезаурус будет действовать в данном контексте. 13.5 Р асп ро стр ан ен и е тезауруса 13.5.1 И н те гр ац и я с э л е ктр о н н о й си сте м ой Должны быть предусмотрены потребности людей, использующих тезаурус как для индексирова­ ния, так и для поиска. Удобнее всего, когда тезаурус со всеми его терминами, отношениями, лексиче­ скими примечаниями полностью интегрирован с функциями индексирования, поиска и просмотра, как указано в 16.3. Некоторые системы индексирования иУили поиска имеют встроенный модуль ведения тезауруса. Если именно он использовался для разработки тезауруса, то не требуется никакой импорт/экспорт, и не нужна никакая специальная работа для этого. Однако, если интегрированная система не имеет механизма экспорта тезауруса в стандартный формат, могут возникнуть трудности при необходимости перейти на другую систему или сделать такой ж е тезаурус для другого применения. 13.5.2 Э ле ктр онная пу б л и ка ц и я Тезаурус может быть представлен как отдельный продукт, не связанный с каким-либо приложени­ ем. Электронный тезаурус можно распространять на CD-ROM. на сайте в Интернете или в локальной сети. Соответствующие ф ункции просмотра описаны в 16.3. Даже если тезаурус опубликован в сети без привязки к специальному приложению, его можно использовать для консультаций в реальном времени при проведении поиска в той же сети. Чтобы упро­ стить эту задачу, нужно тезаурус представить в формате XML доступным в качестве «namespace». В XM L некоторые символы (а именно < > & ' « ) имеют ограничения на употребление. По возмож­ ности их не следует использовать в тезаурусе (см. 6.4.2). Если же они необходимы пользователям (как в случаях «Boyle's Law. wom en's right»), то система ведения тезауруса должна их кодировать в выходной форме XM L так. как изложено в стандарте XML (54]. (55). 13.5.3 О гр ан и чен н о е ра спр о стр а н е н и е п е ч а тн ы х ко п и й Тезаурус можно предоставлять для ограниченного распространения в печатных копиях при сле­ дую щ их условиях: a ) полноформатный вывод с печатающего устройства системы ведения слишком дорог; b ) большинство пользователей предпочитают электронную версию: c) тезаурус предназначен исключительно для собственного использования. d) редакционная коллегия считает распечатку удобной для визуализации и подготовки замечаний. В действительности такая функция является просто расширением обычной практики распечатки отчетов о состоянии тезауруса по мере надобности. Она обладает гибкостью дизайна выходных форм в соответствии с конкретными потребностями, например, включать и исключать служебные поля, выпу­ скать подмножества тезауруса для отдельных групп пользователей, выбирать различные стили оф орм­ ления и т. п. Такие отчеты можно рассылать пользователям в электронной форме, оставляя вопрос о копировании на решение пользователю. 13.5.4 О б ы ч н о е издание Хотя обычное издание уже в значительной мере уступило место электронному издательству, оно может оказаться полезным, если того требуют пользователи. Печатная форма имеет некоторые пре­ имущества перед электронной, особенно в тех случаях, когда доступ к компьютеру ограничен. Кроме того, она может привлечь внимание к тезаурусу новой важной аудитории. Когда организация принимает решение разработать и издать новый тезаурус, об этих планах должно быть объявлено в профессиональном журнале по соответствующей сфере деятельности, а также через соответствующие электронные дискуссионные форумы. 66
ГОСТ Р 7.0.91— 2015 13.5.5 Д е п о н и р о в а н и е в об м е н н о м ф онде Копия первого и всех последующих изданий опубликованного тезауруса должна быть депониро­ вана в соответствующей национальной депозитарной библиотеке. Если тезаурус составлен на англий­ ском языке или включает английский язы к в качестве одного из своих языков, копия тезауруса также должна быть депонирована в Североамериканском обменном фонде в Торонто1». 13.5.6 Каталоги те за ур усо в в Интернете Списки тезаурусов размещены на некоторых сайтах в Интернете. Некоторые из этих сайтов объ­ являют о разработке тезауруса до его публикации. Кроме того Инициатива метаданных Дублинского ядра (DCMI) поддержала несколько проектов разработки реестров метаданных, включая «реестр тер­ минологии». предназначенный в том числе для контрольных словарей [29]. При публикации или до того разработчик должен послать полные данные о тезаурусе, будь он электронным или печатным, адми­ нистратору подходящих сайтов или регистрационных служб. Если же электронный тезаурус доступен через Интернет, такая служба может давать прямую гиперссылку на него. 13.6 О б но в л е н и я 13.6.1 О бщ ие по ло ж ен и я Работы по ведению тезауруса должны продолжаться в течение всего жизненного цикла продук­ та. Необходимо отслеживать изменения как в терминологии, так и в составе базы данных или другого ресурса, который обслуживается тезаурусом. Потребность модернизации тезауруса возникает в день его выпуска, если не раньше. Предложения по внесению изменений могут быть наиболее частыми в первые месяцы после его выпуска, поскольку в это время словарь подвергается первому серьезному испытанию. Редакционные процедуры должны быть готовы с самого начала. Хотя внесение изменений важно для того, чтобы тезаурус удовлетворял возникающим требовани­ ям. следует помнить, что каждое изменение нарушает качество ретроспективного поиска (т. е. поиска по материалам, заиндексированным по прежней версии тезауруса). Когда вводят новый термин, по­ является возможность поиска в базе данных материалов с данного момента, но релевантные ресурсы, уже имеющиеся в массиве, не использовали данный термин при индексировании. Если система управ­ ления базой данных обеспечивает автоматическое или полуавтоматическое исправление ретроспек­ тивных записей, изменения в составе дескрипторов могут быть встроены в поисковый массив. Однако другие типы изменений могут в меньшей мере влиять на ретроспективные записи. Следовательно, не­ обходим компромисс между удовлетворением новых требований и поддержанием стабильности. Если тезаурус многоязычный, перед одобрением изменений должны быть рассмотрены их влия­ ния на все языки тезауруса. 13.6.2 С б о р пр ед ло ж ен и й Д олжен быть установлен простой механизм подготовки предложений ото всех пользователей, осо­ бенно от индексаторов. Этот механизм может быть представлен формуляром, электронным или бумаж­ ным. который приглашает сотрудников вносить необходимые им новые термины и другие изменения с подробным обоснованием. Обоснование включает определения необходимых терминов, ссылки на их употребление в литературе, синонимы и альтернативные способы выражения, связи с терминами, при­ сутствующими в тезаурусе и объяснение, почему это изменение необходимо. Индексаторы часто обнаруживают необходимость в новом термине в процессе ввода документов в базу данных. Поскольку при этом может не хватать времени для консультации с редактором, пред­ лагаемый термин заявляется как «кандидат в дескрипторы». Кандидаты становятся доступными для поиска, но не проходят проверку на пригодность для тезауруса. Редактор тезауруса должен регулярно проверять все предложенные кандидаты и принимать решение об их вводе в систему ведения тезау­ руса со статусом «кандидат». Когда кандидат будет одобрен, производится соответствующая коррек­ тировка его статуса. Неодобренные кандидаты должны быть исключены из системы или исправлены подходящим способом. 13.6.3 П роцед ура пересм отра Периодически редактор тезауруса должен просматривать все полученные предложения и канди­ даты в дескрипторы. Кроме того он должен отслеживать частотность дескрипторов в обслуживаемых 1) Subject Analysis Systems Collection (SAS. Коллекция систем тематического анализа) поддерживается груп­ пой The Inforum: Факультет информации Университета Торонто. 140 St. George Street. Toronto. Ontario M5S 3G6, Canada. Подробности см. на http://discover.library.utoronto.ca/general-information/libraries/FISINFORUM/. Фонд SAS включен в каталог университета. 67
ГОСТ Р 7.0.91— 2015 базах данных. Каждый, используемый слиш ком часто или слишком редко, рассматривается как канди­ дат на исключение из тезауруса или на какое-либо изменение. Для ведения также используются запросы пользователей. Термины, использованные в неудачных поисках, должны быть изучены на предмет пригодности в качестве дескрипторов тезауруса. Слишком обильное использование термина в запросах может свидетельствовать о том. что его нужно разделить по разным понятиям, а неиспользование, что нужно исключить из тезауруса. М ногие современные поисковые системы предлагают свободный текстовый поиск ресурсов и со­ храняют буфер транзакций, включающ ий термины, введенные пользователями. Такой буфер может служить как действенное руководство по предпочтениям и привычкам пользователей, указывающее, например, какой раздел предметной области требует более детальной разработки, и какие понятия чаще требуют поиска — простые или сложные. Иногда буфер показывает, что нужно ввести допол­ нительный аскриптор к уже существующему дескриптору, или даже заменить дескриптор тезауруса синонимом, который используется чаще. Буферы транзакций должны полностью использоваться при ведении тезауруса. Должны быть рассмотрены все предложения, термины пользователей и кандидаты индексаторов. Тщательное расследование может показать, что предложенные понятия уже присутствуют в тезаурусе под другим именем. Предложения чаще всего требуют введения нового дескриптора, но при этом ред­ ко принимают во внимание другие возможности и необходимые дополнительные действия, такие как введение нового ссылочного термина, изменение лексического примечания, добавление иерархиче­ ских или ассоциативных отношений и т. п. Могут также требовать неприемлемого увеличения уровней иерархии. Редактор должен рассмотреть предложение в полный и согласованный набор необходимых изменений, прежде чем дать согласие по предложению. Если тезаурус — многоязычный, предложе­ ние должно быть рассмотрено с соответствующей адаптацией во всех языках. В малых предприятиях все решения вынужден принимать один редактор. О днако следует консультироваться с пользователя­ ми. особенно если тезаурус используется в разных приложениях. Бюллетень со всеми поступившими предложениями следует разослать по пользователям и рецензентам, представляющим все основные приложения, с предложением дать свои замечания. Рецензенты должны регулярно собираться или поддерживать общ ение в электронном форуме. После полного изучения и оф ормления изменений, требуемых предложениями, редактор должен представить их коллегии рецензентов. Прежде чем при­ нять окончательное решение следует изучить последствия изменений для всех приложений тезауруса. 13.6.4 В и д ы и зм енени й Хотя главное внимание при ведении тезауруса делается на добавлении новых терминов, не сле­ дует пренебрегать и другими видами изменений. Встречаются следующие виды изменений, перечис­ ленных в пунктах от а) до п): a ) добавление нового понятия, представленного новым дескриптором; b ) добавление нового аскриптора в качестве входного термина; c) изменение дескриптора или аскриптора: d) изъятие дескриптора; в) перевод дескриптора в статус аскриптора. синонима другого существующего дескриптора: f) изъятие аскриптора; д) передача статуса предпочтительного термина с дескриптора на один из синонимичных ему аскрипторов; h) добавление или изменение лексического примечания, определения, исторического или редак­ торского примечания; i) слияние двух понятий в одно; j) разделение понятия на два или более, что иногда может сопровождаться преобразованием аскрипторов в дескрипторы; k) изменение иерархической структуры; l) перенос ветви иерархии с одного места в другое; пт) добавление или удаление ассоциативных отношений; п) почти любая комбинация изменений по пунктам от а) до т ) , которая может иногда повлечь раз­ личные изменения в различных языках многоязычного тезауруса. Например, добавление аскриптора в одном языке может требовать, а может и не требовать добавления аскриптора в другом языке. Важно чтобы критерии принятия редакционных решений сохранялись при анализе новых пред­ ложений и включали критерий удобства для пользователей. Особенно внимательно нужно относиться к исключению терминов, особенно если они использовались в прошлом. Вместо исключения дескрип- 68
ГОСТ Р 7.0.91— 2015 тора его статус может быть понижен до аскриптора со ссылкой на соответствующий дескриптор и с от­ меткой в историческом примечании, до какого времени термин имел прежний статус. Соответствующий дескриптор также должен иметь в историческом примечании отметку об этом изменении. При сложных изменениях историческое примечание может составлять редактор, но даты ввода и изменения данных должны записываться автоматически. Аналогичным образом идентификаторы но­ вых терминов должны также присваиваться автоматически. Изменения в многоязычном тезаурусе должны вводиться одновременно во всех языках. 13.6.5 И нф орм ация о б и зм ен ен и ях 13.6.5.1 Общие положения Механизм распространения сведений об изменениях должен быть продуман до издания тезау­ руса. Информация об изменении может быть сложной, особенно если атрибуты и отношения одного термина претерпевают несколько различных изменений. При прямой рассылке новых терминов поль­ зователям будет трудно понять, какому месту в иерархии соответствуют новые термины, особенно если необходимо рассылать различные виды указателей. Предполагая, что простой список новых терминов достаточен для пользователей, можно прийти к ситуации, что новые термины не будут использоваться, поскольку они но будут полностью интегрированы в механизм просмотра тезауруса. Простейший путь распространения информации об изменениях — это рассылка новой версии тезауруса. Если это делать электронными средствами, цена сводится к минимуму. Более того, это ис­ ключает обмен сведениями о характере изменений и гарантирует, что все пользователи будут иметь до­ ступ к единой авторитетной версии словаря при выборе терминов. К тому же эта процедура позволяет сообщ ить сведения об изменениях одновременно персоналу и компьютерной системе. 13.6.5.2 Изменения, дружественные к читателю Д ля конечных пользователей информация об изменениях может иметь форму алфавитного спи­ ска. дополненного классифицированным или категоризированным списком, в которых указаны все но­ вые добавленные дескрипторы, измененные дескрипторы, новые входные термины. В этой информа­ ции должно быть приглашение к ответному сообщению. В зависимости от пожеланий пользователей список может иметь разную форму сложности. Некоторые пользователи могут иметь желание полу­ чать полную информацию о каждом новом или измененном термине и отношении. Электронные фор­ мы могут информировать об изменениях выделением их в тексте цветом или подчеркиванием. Всем пользователям должно быть предложено отмечать наиболее важные изменения, такие как введение и исключения терминов в их бумажном экземпляре тезауруса, если они им пользуются. Д ля печатного тезауруса это облегчается изданием его в форме разьемных листов, а информация об изменениях включает новые листы издания, подлежащие замене. 13.6.5.3 Изменения для компьютеров Если копия тезауруса встроена в другую компьютерную систему, то простейшим путем будет пол­ ная замена его на новую версию, в которой уже сделаны все изменения. Однако это может быть не­ приемлемо. если в системе тезаурусные термины связаны с другими данными, такими как библиогра­ ф ические записи или отображения на другие словари. Для таких систем должны быть предоставлены как минимум отчеты или файлы изменений всех элементов, атрибутов и отношений (см. раздел 15). Для поддержки этих требований система ведения тезауруса должна быть способна записывать дату последних изменений всех элементов, атрибутов и отношений и по этой дате выдавать сведения об из­ мененных данных. Альтернативная технология может предусматривать создание внешнего буферного файла, в котором записываются все произведенные добавления, исключения и изменения элементов, атрибутов и отношений. Для импортирующей системы некоторые типы изменений могут быть суще­ ственными. а другие — не существенными. По этой причине некоторые системы ведения тезауруса записывают тип изменения и само изменение отдельно. Это позволяет импортирующей системе отде­ лять простые изменения (например, орфографии) от сложных (например, разделения одного понятия на два). Поскольку стандартная классиф икация изменений не существует, ее следует разрабатывать для каждого случая заново. 13.6.5.4 Следствия для редакционного хозяйства Важность поля даты последних изменений уже подчеркивалась в связи с представлением из­ менений для компьютеров. Оно также иногда необходимо (наряду с датой ввода) в данных для визу­ ального представления изменений. Эта дата должна вводиться в стандартном формате ГП Т -М М -Д Д (например, 2004-03-17) в соответствии с (12). В случае изменения написания термина также жизненно необходим идентификатор термина. (В отсутствие идентификатора компьютер не имеет способа уста- 69
ГОСТ Р 7.0.91— 2015 новить. какой термин должен быть заменен на термин с новым написанием). Все упомянутые атрибуты должны записываться автоматически во избежание человеческих ошибок. Другой жизненной необходимостью редакционных групп является список исключенных терминов. Однако не многие системы ведения тезауруса имеют механизм запоминания выдачи списка удаленных терминов. Поэтому редактор сам должен вести такой список, включающий термины и их идентифика­ торы.14 Указания по программному обеспечению для ведения тезауруса 14.1 О бщие полож ения Программное обеспечение для ведения тезауруса должно быть способно управлять, импортиро­ вать и экспортировать данные согласно положениям раздела 15. О но должно быть выбрано на основе требований имеющегося проекта (см. 13.1.5). Обычно от него требуется наличие характеристик и функ­ ций. описанных в 14.2 — 14.10, но могут быть исключения. Также иногда требуются дополнительные свойства. Например, полезно, если программное обеспечение обладает способностью одновременно­ го ведения двух и более тезаурусов. П р и м е ч а н и е — В этом документе не идет речь о требованиях, обычно предъявляемых к программному обеспечению в цепом, таких как хорошее документирование, обучение и другие формы поддержки, общая друже­ ственность интерфейса к пользователю и приемлемая цена. 14.2 О гр ан и чен и я п о об ъ е м у и сим вол ам Программное обеспечение не должно накладывать следующих ограничений. a) Не должно быть ограничений по числу терминов в словаре, которые бы препятствовали его расширению до необходимых размеров. То же самое относится к другим элементам — меткам узлов, примечаниям. b ) Ж елательно, чтобы не б ы ло ограничений на длину терминов, меток узлов, примечаний. Хотя довольно редко длина терминов бывает более 40 знаков, но в некоторых случаях может потребоваться 100 или более знаков. c) Не должно быть ограничений на допускаемое число уровней иерархии, а также на число иерар­ хических. ассоциативных и синонимических связей у дескрипторов. d) Программное обеспечение должно работать со всеми символами Универсального набора знаков по ИСО/МЭК 1-646 [13] в текстах элементов тезауруса (включая термины, метки узлов и примечания). e ) Редактор должен иметь возможность свободно выбирать верхний или нижний регистр литер при необходимости. f) Для многоязычных тезаурусов не должно быть ограничений на число языков тезауруса. Должна предусматриваться возможность задавать все текстовые элементы (такие как термины, метки узлов и примечания) на каждом из языков тезауруса. 14.3 О тнош ения м еж ду те р м и н а м и и м ож ду по н я ти я м и Программное обеспечение должно удовлетворять требованиям перечислений а) — i). приведен­ ным ниже. П р и м е ч а н и е — Там, где в настоящем разделе указываются английские метки ВТ. NT. RT, USE, UF, SN. в других языках должны применяться соответствующие национальные метки (см. таблицу 2 в разделе 3). a ) Не может быть в тезаурусе совпадающих терминов. При вводе термина, совпадающего с уже существующим, он должен быть исключен или выдан редактору для изменения, объединения, добав­ ления квалификатора или для другого способа исправления. Алгоритм сравнения для выявления ду­ блей должен иметь возможность такой настройки, чтобы, например, типографские различия, такие как курсив или выделение заглавными буквами, не принимались в расчет при выявлении дублей. b ) Должны поддерживаться базисные отнош ения BT/NT, RT/RT. USE/UF, как это описано в раз­ делах 8 и 10. c) Должны поддерживаться отношения взаимности, описанные в разделах 8 и 10. Если понятие А имеет отношение ВТ с понятием В, то понятие В должно иметь отношение NT с понятием А и наоборот. Если понятие С имеет отношение RT с понятием D. то понятие D должно иметь также отношение RT с понятием С. Если термин Е имеет отношение USE с термином F, то термин F должен иметь отношение 70
ГОСТ Р 7.0.91— 2015 UF с термином F и наоборот. Желательно, чтобы программное обеспечение создавало обратное отно­ шение автоматически в ответ на введение редактором исходного отношения. Как минимум программ­ ное обеспечение должно выдавать предупреждение о наличии невзаимных отношений. d) Когда термин или понятие изменяется или исключается, то это изменение должно автомати­ чески распространяться на все случаи, где этот термин или понятие связаны с другим термином или понятием любым отношением — ВТ. NT. RT. USE. UF. При исключении термина или понятия все связи к нему или от него должны быть изъяты. Однако если исключение термина, понятия или отношения оставляет какое-либо понятие без по крайней меро одного вышестоящего или без предпочтительного термина (дескриптора), должно быть выдано соответствующее предупреждение редактору. e) Не должно быть ограничений на число отношений, которые имеют данное понятие или де­ скриптор. Так одно понятие может иметь любое число отношений любого типа — ВТ, NT. RT. а каждый дескриптор — любое число аскрипторов. П р и м е ч а н и е — Некоторые комбинации недопустимы (см. перечисления д) ниже). 0 Должна быть предусмотрена возможность вводить пользовательские взаимные отношения, на­ пример, для того, чтобы различать различные типы отношений ВТ/NT или различные типы ассоциатив­ ных отношений. д) Проверка правильности данных должна предотвращать ввод недопустимых комбинаций отно­ шений, приведенных ниже; - если два термина или понятия уже связаны одним из базовых отношений, никакое другое базо­ вое отношение между ними введено быть не может: - если понятие А имеет отношение ВТ с понятием В. то никакое понятие, стоящее в иерархии ВТ над понятием В. но должно получать отношений ВТ. NT. RT. UF с понятием А; - непредпочтительные термины (аскрипторы, т. е. термины с отношениями USE. USE+ к другим терминам) не могут иметь отношений ВТ. NT, RT, UF; - в случае отношений USE+ программное обеспечение должно проверять, что это отношение яв­ ляется по крайней мерс тернарным.1* h) Не допускаются отношения терминов и понятий к самому себе, т. е. все базовые отношения нерефлексивны. i) Для каждого понятия допускается иметь только один предпочтительный термин (дескриптор) в каждом из языков тезауруса. 14.4 П рим ечание к терм инам и по н я ти я м Программное обеспечение должно поддерживать примечания следующим образом: a) Должен поддерживаться ввод лексических примечаний к каждому понятию. П р и м е ч а н и е — Лексические примечания могут иметь произвольную длину. b ) Если прим ечание любого типа имеет ссы лку на другой термин или понятие в словаре, жела­ тельно, чтобы программное обеспечение обеспечивало маркировку или гиперссылку к записи соответ­ ствующего термина или понятия. Программное обеспечение должно проверять действенность ссылки. c) Должно поддерживаться формирование автоматических примечаний к терминам и понятиям, например, примечаний об изменениях и редактировании. 14.5 К о д ы и о б о зна чен и я Программное обеспечение должно поддерживать предметные категории, коды и обозначения следующим образом; a) должна быть предусмотрена возможность присвоить по крайней мере один код. номер, или другое обозначение каждому термину, понятию, понятийной группе и ряду (см. 12.2.2 и 15.2.18). Жела­ тельно, чтобы поддерживалось присвоение нескольких обозначений. b ) Д олжна бы ть возможность присвоить по крайней мере одну предметную категорию каждому термину, понятию, понятийной группе и ряду (см. 12.2.2 и 15.2.18). c) Должна быть возможность присвоить уникальный идентификатор каждому термину и каждому понятию. Желательно, чтобы присвоение идентификаторов было автоматическим при вводе каждого 11 Имеется по крайней мере два термина, на которые ссылается отношение USE+ (прим, переводчика). 71
ГОСТ Р 7.0.91— 2015 нового термина и понятия и производилось таким образом, чтобы не появлялись дубли идентификато­ ров существующих или исключенных терминов и понятий. d ) Д олжна быть возможность вывести словарь в последовательности любого типа обозначений, кодов и идентификаторов. 14.6 М етки у з л о в Программное обеспечение должно поддерживать метки узлов следующим образом: a ) метки узлов не рассматриваются как термины или понятия тезауруса (см. раздел 11. рисунок 4) и следовательно не связаны требованиями к отношениям п. 14.3. Более того, они не обязаны быть уни­ кальными и не подлежат контролю на дублирование, описанному в п. 14.3, перечисление а); b ) программное обеспечение долж но иметь средства показать на выдаче метку узла в правиль­ ном положении относительно родительских терминов и относительно терминов верхнего уровня, кото­ рые имеются у данного фасета или ряда. 14.7 С татус я з ы ко в Программное обеспечение должно позволять всем языкам многоязычного тезауруса иметь рав­ ный статус и избегать преимуществ одного языка по сравнению с другими. Например: a ) Число аскрипторов. приписанных какому-либо понятию в одном языке, не должно зависеть от числа аскрипторов в другом языке, и аскрипторы в различных языках не обязаны соответствовать друг ДРУГУ- b ) Наличие лексического прим ечания к понятию в одном языке не долж но требовать наличия со­ ответствующего лексического примечания в другом языке. 14.8 И м п о р т/э кс п о р т д а н н ы х Необходимо, чтобы была возможность экспорта и импорта данных таким образом, чтобы тезаурус не был ограничен тем программным обеспечением, в котором он был первоначально создан. Форматы импорта/экспорта обсуждаются в разделе 17. Должны быть предусмотрены следующие механизмы: a) Полный вывод данны х существующего словаря, включая термины, примечания, метки узлов, стандартные отношения терминов и понятий и все другие атрибуты терминов, понятий и меток узлов. — При выводе должны сохраняться все упомянутые особенности, а также все используемые сим ­ волы Универсального набора знаков. b ) Ф ормирование отчетов и вывод словаря, включая все термины, примечания, обозначения и стандартные отношения между терминами и понятиями. — Должна существовать возможность вывода подмножеств, определяемых редактором, напри­ мер. таких как только непредпочтительные термины (аскрипторы) или только предпочтительные терми­ ны (дескрипторы) с их лексическими примечаниями и нижестоящими связями. c) Пакетное редактирование. — Должна существовать возможность редактирования или исключения пакетов записей одно­ временно. предпочтительно с использованием собственных возможностей программного обеспечения. Если ж е это невозможно, то должны использоваться функции базовой системы ведения баз данных или процедура вывода избранных записей, редактирования их вне тезауруса и повторного импорта в тезаурус. Эта техника может использоваться, например, для ввода одинаковых исторических справок или отношений к пакету терминов или, может быть, для отображения терминов на другой словарь. Если применяется этот метод, должна также производиться обычная проверка целостности данных. d ) Экспорт всех терминов, которые были изменены после некоторой даты, с их полными статьями или без них. — Должна быть доступна возможность выбора только определенного типа изменений, например, только новые термины или термины на одном из языков, или включая все термины, в которых измене­ ны какие-либо атрибуты и отношения. Также должна бы ть возможность получить список всех терминов, исключенных с определенной даты. e ) Вывод указателей тезауруса, либо на экран, либо на печать. — Должна быть возможность выбора между различными последовательностями и формами ука­ зателей. из которых наиболее важен алфавитный указатель, но также настоятельно рекомендуется иерархический или классиф икационный указатель. 72
ГОСТ Р 7.0.91— 2015 0 Когда родственные термины в алфавитном, иерархическом или классиф икационном указателе представляют в алфавитном порядке, может быть использовано соглашение о расположении «слово за словом», либо «буква за буквой». Такое же соглашение должно применяться ко всему тезаурусу. (Объ­ яснение этих соглашений описано в [7]: см. пример ниже). Однако должна быть возможность нарушать эту последовательность в случае необходимости (см. раздел 11).Пример — Последовательность «слово за словам»Последовательность «буква за буквой»National insuranceNational insuranceNational parksNationalityNationalityNational parks 14.9 Р ед акторская н а в и га ц и я и п о д д ер ж ка Программное обеспечение должно поддерживать следующие редакторские функции. a) Редактор тезауруса должен иметь возможность получить все детали любого термина (и соот­ ветствующего понятия) путем прямого обращения к этому термину, предпочтительно, путем ввода не­ которой части термина при том. что программное обеспечение выберет все термины, содержащие эту часть. b ) Редактор тезауруса должен иметь возможность получить все детали любого термина (и соот­ ветствующего понятия) путем просмотра связей термина/понятия. Желательно, чтобы функция про­ смотра позволяла редактору начинать со списка терминов верхнего уровня, но при отсутствии этой возможности редактор должен иметь возможность переходить от любого термина к записям любого связанного с ним термина отношениями NT. ВТ. RT. USE. UF. c) Редакторский интерфейс должен позволять просмотр полного иерархического контекста терми­ на или понятия одновременно с самим термином со всеми его примечаниями, кодами и отношениями, представленными для редактирования. d) Должна быть возможность легкого перемещения понятия (вместе со всеми его нижестоящими всех уровней) из одной позиции в иерархическом дерево в другую, желательно с помощью перетаски­ вания курсором. e) Редакторские возможности должны включать стандартные функции обработки слов, такие как добавление, изменение и исключение букв без необходимости повторного ввода с клавиатуры всего поля. Необходима функция проверки правописания. 0 Когда редактор предпринимает шаги к исключению термина или понятия, программное обеспе­ чение должно просить подтверждения намерению исключить термин или понятие прежде, чем факт исключения будет совершен. д) Установление нового отношения между двумя терминами или понятиями, уже представлен­ ными в тезаурусе, должно производиться путем навигации и выбора терминов, а не путем повторного набора термина, известного системе. Это необходимо для предотвращения ош ибок и повышения эф­ фективности работы. h) Редактор должен иметь возможность легко переключаться с выдачи на одном язы ке к соответ­ ствующей выдаче на другом языке тезауруса. 14.10 Р ед акц и он н ая б е зо п а с н о с ть Программное обеспечение должно предусматривать следующие меры предосторожности. a) Редакционные изменения должны первоначально производиться в эталонной базе данных, из которой тезаурус периодически выгружается для текущих процессов индексирования или поиска ре­ сурсов. b ) Если эталонную базу данных редактируют одноврем енно два лица, встроенный механизм дол­ жен предотвращать одновременный доступ для изменения одной и той же записи. c) Проверка безопасности по паролю должна предотвращать введение редакционных правок по­ сторонними лицами. d) Желательно, чтобы программное обеспечение предусматривало разные уровни доступа, так чтобы можно было вводить предварительные изменения, которые вводятся в действие после одобрения. 73
ГОСТ Р 7.0.91— 2015 е) Должна быть предусмотрена функция возврата к прежнему состоянию, которая позволяет каж­ дому редактору отменить некоторое количество последних изменений. 0 Должен поддерживаться буфер, позволяющий восстановить базу данных по предыдущей версии. 14.11 С ред ства учета Должна иметься возможность получить отчет о числе терминов с определенными характеристи­ ками, в частности — общ ее число дескрипторов и аскрилторов. Как описано в 13.6.3. должен вестись учет числа использований терминов для индексирования и поиска. Также программное обеспечение тезауруса должно иметь возможность импорта данных об ис­ пользовании. если это не выполняется каким-либо другим средством. Для хранения этих данных может потребоваться одно или более пользовательских полей или атрибутов (см. 15.2.16).15 Модель данных 15.1 О бщие полож ения Этот раздел моделирует структуру данных, которую можно принять за основу построения тезауру­ са, удовлетворяющего указанным выше требованиям ИСО 25964. Для многоязычных тезаурусов, одна­ ко. эта модель данных применима только в случае полной симметричности. Если структуры данных для разных языков различаются, то может понадобиться особая техника отображения, по крайней мере для частей тезауруса, где это различие имеет место. Техника отображения будет рассмотрена в [6]. Схема XM L выведена из этой модели и может быть использована при передаче или приеме теза­ уруса в электронной форме. Настоящая модель представляет логическую структуру, которую необхо­ димо поддерживать, но она не указывает, как должны быть реализованы данные в конкретных компью­ терах. Базовые рекомендации разделов с 5-го по 12-й достаточно просты и требуют только простой модели. Но реализация нескольких факультативных свойств потребует более сложной модели. Для обеспечения успешного обмена тезаурусными данными в большем диапазоне ситуаций важно, чтобы имелся формат, восприимчивый как к сложным, так и к упрощенным тезаурусам. Модель, представленная здесь, включает полный набор возможностей, описанных в разделах с 5-го по 12-й. Некоторые элементы модели показаны как факультативные, и они не требуются при обме­ не тезаурусами, в которых эти элементы отсутствуют. Если программное обеспечение, импортирующее тезаурус, не поддерживает факультативные элементы, оно может их игнорировать, а также принимать подходящие значения по умолчанию (например, нуль) для тех факультативных элементов данных, ко­ торые оно поддерживает, но которые отсутствуют в принимаемом тезаурусе, при этом корректно интер­ претируя остальные элементы. Модель представлена сначала на рисунке 15 с помощью соглашений UML (Unified Modelling Lan­ guage — Унифицированный язы к моделирования) [14]. [15]. [16]. но четко останавливаясь перед описа­ нием поведения тезауруса и методов распределения, которые могут потребоваться в специф икации по установке программного обеспечения. UM L достаточно выразителен и исключает неоднозначности, но поскольку некоторые пользователи могут быть незнакомы с этими соглашениями, в 15.3 дополнительно приведено альтернативное табличное представление. Элементы данных и атрибуты в диаграммах UML и в таблицах данных идентичны по содержанию, хотя некоторые детали отношений не удается ясно вы­ разить в табличном представлении. В случаях сомнений следует обращаться к диаграммам. UML содержит собственные специальные соглашения и термины для моделирования. В настоя­ щем разделе термин «класс» используется в смысле UML для обозначения множества объектов, име­ ющих сходную структуру, поведение и отношения. Также UML придает специальный смысл терминам «строка», «булевский» и «агрегация». Дополнительные сведения об UML можно найти в библиографии по ссылке [16]. где глава 5 — руководство по нотации UML. а раздел 4.5.4 детально описывает семан­ тику. Замечания по модели, имеющиеся в 15.2. относятся как к табличному представлению, так и к диа­ граммам на рисунке 15. 74
ГОСТ Р 7.0.91— 2015 уса ур за те ния рое ст по х ы н н а д ы р у т к у р т с ль де о М - 5 1 к о н у с и Р 75
ГОСТ Р 7.0.91— 2015 15.2 З ам ечания по м одели 15.2.1 С огл аш ения о б и м енах Имена всех атрибутов, включая некоторые элементы данных Дублинского ядра (см. ссылку (17]), которые появляются в модели и в ее схеме XML, следуют «соглашению о верблюдеНижнегоРегистра» (т. е. между словами не делается пробел, а каждое следующее слово в имени (кроме первого) начина­ ется с заглавной буквы). Имена классов UML следуют «соглашению о ВерблюдеВерхнегоРегистра» (т.е. пробелы отсутствуют и каждое слово в имени начинается с заглавной буквы). 15.2.2 С и м в о л ы д л я ассо ц и а ц и й Ромб на диаграммах обозначает «агрегацию», т. е. отношение обладания (has-a отношение). Этот символ используется для указания, что в соответствующей схеме XM L определение объекта включено в родительский объект. Символ треугольника обозначает «генерализацию», т. е. отношение вида к роду (is-a отношение), связывая обобщающий кла ссе его видовыми подклассами, которые наследуют все атрибуты родитель­ ского класса. Обычная ассоциация (без ромба) обозначает отношение типа key/keyref в XML, где каждый эк­ земпляр одного класса содержит ключ ссылки, который связывает его с экземпляром другого класса. Заметим, что схема XM L в действительности не навязывает ограничений key/keyref. Объясняется это тем, что эти ограничения приводили бы к обесцениванию выходных файлов XML, которые содержали бы только фрагмент тезауруса, а не весь тезаурус целиком. 15.2.3 П онятие Каждое понятие в тезаурусе представлено одним дескриптором в каждом языке, и некоторым количеством аскрипторов. Нотация, примечания и родовидовые отношения применяются к понятию в целом, а не к дескриптору как таковому. Каждому понятию может быть присвоен идентификатор. В некоторых системах понятие идентифицируется только самим дескриптором или идентификатором дескриптора, но это делать не целесообразно, поскольку написание терминов может меняться. 15.2.4 И д е н ти ф икатор Классы Thesaurus. ThosaurusConcept. ThesaurusTerm. ConceptGroup — все они имеют уникаль­ ные идентификаторы, которые используются в схеме XML. Идентификатор и значения дат для Thesau­ rusTerm существенны в отношении организации службы обновлений, поскольку, когда меняется напи­ сание термина, преемственность данных сохраняется благодаря сохранению идентификатора в цепи последовательных обновлений. Использование идентификаторов понятий строго рекомендуется для обеспечения совместимости в среде сетевых приложений. 15.2.5 Д а ты Даты создания и изменения строго рекомендуется указывать, несмотря на то что соответству­ ющие элементы данных в некоторых классах являются факультативными. Они должны быть даны в формате П Т Г — ММ — ДЦ в соответствии с [12]. В классе T he sa u ru s имеется альтернатива — исполь­ зовать простой атрибут «date». который будет указывать, когда была создана версия того, к чему этот атрибут привязан. Формат даты необходимо использовать тот же. 15.2.6 В е р си и и их и с то р и я Класс VorsionHistory позволяет по желанию иметь в каждой копии запись о версиях или изданиях, которые были выпущены. Хотя этот класс факультативен и может не понадобиться, если существует только одна версия, но крайне рекомендуется принять его, если версий больше, чем одна. Каждая версия должна быть иден­ тифицирована идентификатором, или датой, или и тем и другим одновременно. Атрибут versionNote используют для указания на природу версии, т. е. создана ли она как обнов­ ление. как фрагмент, как перевод, а также для разъяснения отношений к другим версиям. Атрибут curontVersion — это булевский флажок (да/нет) для указания в каждой версии, является ли она рабочей или она заменена и отброшена. Рабочими могут быть одновременно несколько версий. Атрибут thisVersion — это булевский флажок для указания того, к какой из перечисленных версий эта история прилагается. Решить, какой из вариантов тезауруса является «версией», а какой должен рассматриваться как самостоятельная разработка, не всегда просто. В настоящем контексте управление версиями предпо­ лагает главным образом последовательное обновление исходного тезауруса. Таким образом: а ) обновления, сделанные или принятые первоначальным владельцем/создателем — новые по­ нятия. термины, отношения, примечания, изменения в существующих частях тезауруса, а также специ­ альные издания для различных целей — должны рассматриваться как новые версии данного тезауруса; 76
ГОСТ Р 7.0.91— 2015 b) подмножества тезауруса, даже если они имеют подзаголовок «Сокращенная версия», более целесообразно рассматривать как «понятийную группу» (см. 15.2.18). если они основаны на действую­ щей версии; c) подобным образом языковые версии, при условии что они соответствуют исходной разработке и имеют общую структуру понятий (даже если они могут быть названы «Английская версия», «Француз­ ская версия») должны рассматриваться как принадлежащие той же самой версии тезауруса. С целью обмена данными они должны диф ференцироваться при помощи языкового атрибута класса Thesaurus. d) Всякая разработка, включающая изменения терминов, понятий или отношений, новые пере­ воды. упрощения/сокращения отношений, если ее представляет кто-либо кроме первоначального владельца/создателя. должна идентифицироваться как отдельный тезаурус. Указывать на то. что это от­ дельный тезаурус могут изменения в атрибутах creator, publisher, rights, title класса Thosaurvs. В этих случаях должен быть назначен отдельный идентификатор и дана связь к исходной работе в данных таких атрибутов как relation, description, source. 15.2.7 С татусStatus — факультативный атрибут в ThesaurusConcept и ThesaurusTerm. который указывает на то. является ли данный объект, например, утвержденным кандидатом, замененным или исключенным (см. 13.6.2) . 15.2.8 Н отацияNotation — факультативный атрибут в ThesaurusConcept. NodeLabel и ConceptGroup (см. 12.1.3 и 12.2.5.2) . Если тезаурус использует выразительную нотацию, то. присоединяя ее к меткам узлов, при иерар­ хическом представлении мы получаем возможность указывать узлы в надлежащем месте. Если выразительная нотация отсутствует, то должны быть найдены другие средства, чтобы выво­ дить метки узлов в правильной последовательности, такие как код сортировки, который скрыт от поль­ зователей. В этом случае тот ж е самый атрибут требуется для вывода дескрипторов. Система нотации в ConceptGroup вполне может отличаться от нотации в ThesayrusConcept. и каж­ дая из этих систем может быть представлена без другой. 15.2.9 И сточни кSource — факультативный атрибут в Thesaurus и ThesaurusTerm. который можно использовать для ссылки на источник сведений или на разработчиков словарной статьи. 15.2.10 Ко д ы я з ы ко вLanguage — факультативный атрибут в ThesaumsTerm. Note и NodeLable и обязательный в The­saurus. если он имеется в списке, то он должен быть представлен кодом alpha-2 из (18] или [19]. эти коды при необходимости могут быть расширены дополнительными кодами, описанными в RFC 4646 (20] и перечисленными в регистре подметок (субтэгов) IANA [21] (см. 12.4.5). 15.2.11 Э лементы Д у б л и н с ко го яд ра Класс Thesaurus имеет несколько атрибутов для указания метаданных Дублинского ядра [17] в формате [7]. Наряду с описанными выше атрибутами identifier, date, source, language сюда относятся contributor, coverage, creator, description, format, publisher, relation, rights, subject, title и type. Все они. кро­ ме language и identifier, факультативны. 15.2.12 М н о ж е стве н н о сть д е с кр и п т о р о в Модель позволяет иметь в тезаурусе несколько дескрипторов для обозначения одного и того же понятия, что необходимо в случае многоязычных тезаурусов, где имеется по одному дескриптору на каждом языке. Для одноязычных тезаурусов такая множественность исключается. 15.2.13 К о р н е в ы е (в е р ш и н н ы е ) по ня ти я В разделе 12 кратко упоминается о терминах верхнего уровня («Тор Terms»), т. е. о терминах, представляющих понятия самого верхнего уровня в качестве факультативной составляющей алф авит­ ного указателя и единого списка дескрипторов (см. 12.2.2 и 12.1.3). которая связывает понятие с верши­ ной иерархии, в которой находится понятие. Обеспечивает это класс TopLevelRelationship. Рекомендуется иметь возможность распечатки редакторов со списком вершинных терминов (14.9 перечисление Ь). На это свойство указывает атрибут topConcept, помечающий понятия, которые на­ ходятся наверху иерархии, т. е. не имеют вышестоящих понятий. При импортировании тезауруса это облегчает возможность выбирать все вершинные понятия и строить на них иерархические деревья. 15.2.14 П рим е чан и я В тезаурусе могут присутствовать или отсутствовать примечания любого типа. 77
ГОСТ Р 7.0.91— 2015 Полезны редакционные примечания такого типа: «Проверить этот термин после поглощения ком­ пании» или «Этот термин упомянут в примечании к Понятию X» (см. 5.3) или «Проверить правописа­ ние с экспертом А». Такие примечания и некоторые атрибуты полезны не столько для пользователей, сколько для редакционной деятельности. Нужно сознательно подойти к решению вопроса о том, делать ли примечания видимыми для пользователя. 15.2.15 С с ы л ки пр им еча ни й Связь между Note и Thesaurus Con сер t позволяет в примечании к одному понятию сделать ссылку на другое. Эта возможность особенно ценна для примечаний о значении термина. 15.2.16 П о л ь зо в а те л ь с ки е а т р и б у т ы (C u sto m a ttrib u te s ) Модель включает классы CustomConceptAttribute и CustomTermAttribute для пользовательских по­ нятий и терминов, что позволяет записывать пользовательские данные о терминах и понятиях. Они включаются как отдельные классы, чем обычные атрибуты, для того чтобы администратор системы ведения тезауруса мог устанавливать значение пользовательских атрибутов. Эти классы име­ ют атрибут customAttributeType. который позволяет администратору устанавливать, какой тип атрибута используется. Сами значения при этом обычно берутся из контрольного списка. 15.2.17 М отки р я д о в и у зл о в Хотя все тезаурусы имеют ряды соподчиненных терминов, не всегда требуется моделировать их напрямую, и поэтому соответствующий класс факультативен. Классы ThcsaurusArray и NodeLabel в модели необходимы в особенности для поддержки генерации представлений тезауруса, включающих метки узлов и/или неалфавитные последовательности соподчиненных терминов. (См. примеры на ри­ сунках 4, 6. 7. 8, а также 12.4.3). Атрибут ordered обеспечивает неалфавитный порядок, когда это необходимо. В каждом языке тезауруса у каждого ряда дескрипторов должно быть не более одной метки узла. Некоторые системы организуют выдачу так. как если бы метки узлов были понятиями с отнош е­ ниями к вышестоящим и нижестоящим понятиям. Это делается только с целью визуализации, а не для нормального функционирования иерархических связей. Только понятия могут иметь настоящие связи к вышестоящим и нижестоящим понятиям. 15.2.18 П о н я ти й н ы е гр у п п ы Многие тезаурусы группируют понятия, используя классиф икационную структуру, которая сущ е­ ствует независимо от параллельной иерархии понятий, основанных на отношениях выше-ниже. По­ рождаемые такой классиф икацией группы, как правило, базируются на научных дисциплинах, областях знаний или деловой активности. Их иногда называют «предметными категориями», «тематиками», «до­ менами», «группами» или «микротезаурусами». Настоящая модель все это предусматривает, предо­ ставляя классы ConceptGroup. ConceptGroupLabel, а конкретный тип группировки может быть указан атрибутом conceptGroupType. Обычно между ConceptGroup и входящими в него понятиями тезаурус- ные отношения выше-ниже не устанавливаются. В ConceptGroup могут быть собраны понятия из различных фасетов и иерархий тезауруса, а но­ тация классиф икации по группам может быть совершенно отлична от нотации понятий как таковых. Группы могут иметь подгруппы любого уровня. Каждой группе в каждом языке должна быть присвоена одна словесная метка. Если требуется исключить определенные асхрипторы из данного множества понятий, может ока­ заться необходимым пометить их, что можно сделать с помощью пользовательских атрибутов (см. 15.2.16). 15.2.19 Ф а с е ты Фасеты предусмотрены моделью, но представлены в ней не напрямую, поскольку различные те­ заурусы могут производить фасетный анализ по-разному. Если имена фасетов включены в качестве терминов верхнего уровня, их следует рассматривать как нормальные дескрипторы понятий верхне­ го уровня (см. 15.2.17). В противном случав, они могут представлять собой имена понятийных групп (15.2.18) или метки узлов (15.2.17). 15.2.20 Р оли о тн ош ен и й Классы Equivalence. HierarchicalRelationship. AssociatrvoRelationship имеют атрибут role. Он может быть использован вместе с отношениями С/См, В/Н и А 'А . Его можно также использовать вместе с факультативными отношениями, описанными в п. 10.2.1, а также с пользовательскими отношениями, предложенными в п. 10.4. Каждое появление отношения выражает направление только в одну сторо­ ну. от экземпляра класса «источника» к экземпляру «целевого» класса. Например. «Понятие А имеет вышестоящим понятие В», где роль — «выше». Если дополняющее отношение «Понятие В имеет ни- 78
ГОСТ Р 7.0.91— 2015 жестоящ им понятие А» должно быть выражено, то оно указывается как отдельное появление того же отношения с ролью «ниже». Д ля пользовательских типов отношений текст в атрибуте role должен состоять из (а) имени ро­ дительского типа отношений, следующего за ним (Ь) символа дроби «/» и (с) имени пользовательского типа отношений. При необходимости пользовательские типы отношений могут быть подразделены та­ ким же способом.П р и м е рТ е к с т в а т р и б у т е r o l e к л а с с а H i e r a r c h i c a l R e l a t i o n s h i p м о ж е т б ы т ь о д н и м и з у к а з а н н ы хн и ж е , г д е N T X о б о з н а ч а е т п о с л е д у ю щ и е п о д р а з д е л е н и я М П :N TN T / N T PN T / N T IN T / N T GN T / N T U N T XВ ТB T / B T PВ Т / В ПB T / B T GB T / B T U B T Xи т . д . 15.2.21 Р асщ еп л ен н ы е н о п р е д л о ч ти те л ь н ы е те р м и н ы (а с кр и п то р ы ) Классы SplitNonPreferedTerm и CompoundEquivalenco обеспечивают представление сложных по­ нятий посредством комбинации терминов, как то описано в 8.5. 15.2.22 Р ол ь м еток отн ош ен и й Рисунок 15 показывает отношение между SimpleNonProferedTorm и ProforedTerm с метками USE и UF. которые описаны в разделах 3 и 8 в контексте соглашений человекочитаемого вывода. В контексте обмена данными это отношение может показаться излишним, поскольку все дескрипторы и аскрипторы данного понятия связаны с этим понятием. Однако модель сохраняет некоторую избыточность для об­ легчения обмена данными простых тезаурусов и для того, чтобы облегчить обмен данными обновлений и других специализированных подмножеств тезауруса. Особенность представления отношения USE ...+ состоит в том. что при человекочитаемом пред­ ставлении между USE и + всегда имеется пробел для заполнения его термином (например, «coal mining USE coal + mining»). Но если тэг будет использоваться компьютерами за кулисами сцены, его лучше сжать в следующем виде: «coal mining USE+ coal; coal mining USE+ mining». По этой причине на д иа­ грамме пробел отсутствует. 15.3 Т аб ли чн о е пр ед ста вл ен и е Элементы модели, показанные на рисунке 15. перечислены в таблицах 4 — 9 по пяти классам — Thesaurus, ThesaurusArray. ThesaurusConcept. ThesaurusTerm и Note. Д ругие подчиненные классы по­ казаны внутри этих таблиц. Краткий текст в колонке описания дополнен более распространенными примечаниями в 15.2, а также определениями или терминами, приведенными в разделе 2. Колонка «Тип» показывает тип данных, используя где уместно типы «String» и «Boolean» по UML, «Date» и «Language» по XML и «Class» в случае начального или ассоциированного класса модели. Колонка «Статус» показывает, является ли элемент обязательным и повторяемым согласно таблице 3. Т а б л и ц а 3 — Определение «Статуса» в таблицах4 — 9 C t a iy c З н ачен ие 1 Обязательный, не повторяемый (только одно вхождение) 1 ..* Обязательный, повторяемый (одно или более вхождений) 0 ..1 Факультативный, не повторяемый (нуль или одно вхождение) 0 . .* Факультативный, повторяемый (нуль или более вхождений) 79
ГОСТ Р 7.0.91— 2015 Т а б л и ц а 4 — Атрибуты и ассоциации класса Thesaurus Э лем ен т Тип С татус О п и с а н и еThesaurus Class 1 Тезаурус в целом Атрибуты класса Thesaurusidentifier String 1..* Идентификатор тезауруса в целомcontrbulor String 0..* Персона или организация, внесшая вклад в тезаурусcoverage String 0..* Пространственное или временное покрытие тезаурусаcreator Stnng 0..* Персона или организация, несущая основную ответственность за соз­ дание ресурсаdate String 0..* Какая-либо дата, связанная с тезаурусомcreated String 0..1 Дата создания тезаурусаmodified String 0..* Дата изменения тезаурусаdescription String 0..* Объяснение к тезаурусуformal String 0..* Формат файлов или физический носитель тезаурусаlanguage Language Коды языков, поддерживаемых тезаурусомpublisher String 0..* Лицо, ответственное за публикацию (издание)relation String 0..* Связанная публикация (издание)rights String 0..* Копирайт или другая информация о правахsource String 0..* Ресурс, из данных которого произведен тезаурусsubject String 0..* Термины индексирования, определяющие тематику тезаурусаtitle String 0..* Наименование тезаурусаtype String 0..* Вид словаря, например «thesaurus» Ассоциированные классы класса ThesaurusThesaurusArray Class 0..* Ряд родственных понятий, образующий часть тезаурусаThesaurusConcept Classи * Понятие, входящее в тезаурусConceptGroup Classо .: Группа понятий, выбранных по определенному критерию, например, по значимости в некоторой предметной областиVersionHistory Class 0..* Может подтверждать действенность версии, а также связь с другими версиями тезауруса Т а б л и ц а 5 — Атрибуты и ассоциации класса ThesaurusArray Э лем ен т Ти п С т ж у с О п и са н и еThesaurusArray Class 0 . .* Ряд родственных понятий, входящих в тезаурус Атрибуты класса ThesaurusArrayidentifier String 1 Уникальный идентификатор рядаordered Boolean 1 Метка исгина/ложь. указывающая на необходимость сохранять порядок понятий в ряду. По умолчанию — «ложь»notation String 0 ..1 Символическое обозначение ряда, которое можно использовать для сортировки и визуализации 80
ГОСТ Р 7.0.91— 2015О к о н ч а н и е т а б л и ц ы 5 Элемент Тип Статус Описание Ассоциированные классы класса T h e s a u r u s A r r a yh a s S u p e r O r d i n a t e Class 0..1 Ряд более высокого уровня, в который входит данный ряд рядh a s M e m b e r ряд Class 0..* Ряд более низкого уровня, входящий в данный рад. Р я д д о л ж е ни м е т ь п о к р а й н е й мере о д и н ч л е н , н о о н м о ж е т б ы т ь л и б о р я ­д о м . л и б о п о н я т и е мh a s S u p e r O r d i n a t e Class 0..1 Понятие более высокого уровня, которому подчинен данный ряд понятиеh a s M e m b e r поня­ Class 0..* Понятие, являющееся членом данного ряда. Р я д д о л ж е н и м е т ь тиеп о к р а й н е й м е р е о д и н ч л е н , н о о н м о ж е т б ы т ь л и б о р я д о м , л и б оп о н я т и е мN o d e L a b l e Class 0 . / Метка, показывающая основание, на котором выбраны и упоря­ дочены понятия данного ряда - Атрибуты класса N o d e L a b le -lexicalValue String 1 Словесное выражение метки узла -created Date 0..1 Дата создания метки узла -modified Date 0..1 Дата изменения метки узла -fang Language 0..1 Код. обозначающий язык метки узла. Используется в тех случаях, когда тезаурус поддерживает несколько языков Т а б л и ц а 6 — Атрибуты и ассоциации класса T h e s a u r u s C o n c e p t Элемент Тип Статус ОписаниеT h e s a u r u s C o n c e p t Class 1..* Понятие, входящее в тезаурус Атрибуты класса T h e s a u r u s C o n c e p ti d e n t i f i e r String 1 Уникальный идентификатор понятияc r e a t e d Date 0..1 Дата создания понятияm o d i f i e d Date 0..1 Дата изменения понятияs t a t u s String 0..1 Указание, является ли понятие кандидатом, замененным и т. л.n o t a t i o n String 0..* Символическое обозначение понятия, которое можно ис­ пользовать для упорядочения и визуализацииt o p C o n c e p t Boolean 0..1 Метка истина/ложь. указывающая на то. что понятие явля­ ется понятием верхнего уровня, т. е. не имеет вышестоя­ щих понятий Ассоциированные классы класса T h e s a u r u s C o n c e p tP r e f e r e d T e r m Class 1..* Термин, служащий меткой данного понятия. В каждом язы­ ке у понятия должен быть только один дескриптор (пред­ почтительный термин)S i m p t e N o n P r e f e r e d T e r m Class 0..* Альтернативный термин, по которому может быть найдено данное понятиеS c o p e N o t e Class 0..* Примечание, определяющее или проясняющее значение термина в данном тезаурусе 81
ГОСТ Р 7.0.91— 2015Продолжение таблицы 6 Элемент Тип Статус ОписаниеHistoryNote Class 0..* Примечание, фиксирующее изменения понятия в данном тезаурусеCustomNole Class 0..* Примечание к понятию какого-либо другого типа - Атрибуты класса CustomNote - noteType String 0..1 Определение конкретного вида примечанияNote Class 0..* Примечание любого типа, которое ссылается на данное понятие, но более непросредсгвенно прилагается к дру­ гому понятиюisMemberOfArray Class 0..* Ряд. в который входит данное понятиеhasSubordinateArray Class 0..* Ряд. подчиненный данному понятиюCustomConceptAtribute Class 0..* Дополнительный атрибут понятия - Атрибуты класса CustomConceplAtnbuto- lexicaiValue String 1 Словесное обозначение атрибута- customAthbute Type String 1 Определение конкретного вида атрибута-lang Language 0..1 Язык строки lexicaiValue Ассоциативный класс TopLevelRelationship - Классы, связанные посредством TopLevelRelationship- hasTopConcept Class 0..* Понятие наивысшего уровня, включающее данное поня­ тие- isNopConceptOf Class 0..* Понятие, на вершине иерархии которого находится данное понятие Ассоциативный класс HiecarchicalRelationship - Атрибуты класса HierarchtcalRelabonship-role String 1 Определение вида иерархического отношения, которое связывает два понятия, например. ВТ. BTI. NT. NTP и др. - Классы, связанные посредством HierarchicalRelationship- hasHierRelCoocept Class 0..* Понятие, связанное с исходным понятием отношением, определенным в иго1е». Например, если «role» есть ВТ. то это — связь к вышестоящему понятию от данного понятия - isHierRefConcept Class 0..* Исходное понятие, с которым данное понятие связано от­ ношением. указанным в «role». Например, если роль есть ВТ. то это — связь к понятию, для которого данное понятие является вышестоящим Ассоциативный класс AssoctativRelattonship - Атрибуты класса AssodativRelationship-role String 0..1 Определение вида ассоциативного отношения, которое связывает два понятия. Это обычно RT. но отношение мо­ жет быть несимметричным, например CAUSE, как уже об­ суждалось в 10.4 82
ГОСТ Р 7.0.91— 2015Окончание таблицы 6 Элемент Тип Статус Описание - Классы, связанные посредством AssociativRelationship- hasRelatedConcep! Class 0..* Понятие, связанное с данным понятием отношением, ука­ занным в «role*. Например, если отношение есть CAUSE, то это — связь с понятием, которое является причиной данного понятия- isRelatedConcept Class 0..* Исходное понятие, с которым связано данное понятие от­ ношением. указанным в «role*. Например, если роль есть CAUSE, то это — связь с понятием, для которого данное понятие является причиной Т а б л и ц а 7 — Атрибуты и ассоциации класса ConceptGroup Элемент Тип Статус ОписаниеConcepIGroup Class 0..* Группа понятий, выбранная по некоторому критерию, такому как ак­ туальность в определенной предметной области Атрибуты класса ConcepIGroupidentifier String 1 Уникальный идентификатор группыconceptGroup Type String 1 Метка, указывающая тип группы, например, «микротезаурус», «те­ матика» или «предметная категория»notation Stnng 0..1 Символическое обозначение группы, которое можно использовать для сортировки и визуализации Ассоциированные классы класса ConceptGroupThsaurusConcept Class 0..* Понятие, входящее в группуhasSuperGroup Class 0..* Группа более высокого уровня, членом которой является данная группаhasSubGroup Class 0..* Группа нижнего уровня, являющаяся членом данной группыConceptGroupLabei Class 1..* Метка, представляющая собой словесное описание группы. Группа в каждом языке должна иметь одну такую метку - Атрибуты класса ConceptGroupLabei- lexicalValue String 1 Словесное выражение метки- created Date 0..1 Дата создания метки- modified Date 0..1 Дата изменения метки-lang Language 0..1 Код. обозначающий язык метки. Используется в тех случаях, когда тезаурус поддерживает несколько языков Т а б л и ц а 8 — Атрибуты и ассоциации класса ThesaurusTerm Элемент Тип Статус ОписаниеThesaurusTerm Class 1 Термин тезауруса, по которому гложет быть найдено понятие Атрибуты класса ThesaurusTermlexicalValue String 1 Словесное представление терминаidentifier String 1 Уникальный идентификатор терминаcreated Date 0..1 Дата создания термина 83
ГОСТ Р 7.0.91— 2015Продолжение таблицы 8 Элемент Тип Статус Описаниеmodified Date 0..1 Дата изменения терминаsource String 0..1 Лица или документы, откуда был получен тезаурусstatus String 0..1 Указание, является ли термин кандидатом, замененным и т. п.tang Language 0..1 Код языка термина. Должен указываться, если тезаурус под­ держивает несколько языков Ассоциативные классы класса ThesaurusTermHistoryNote Class 0..* Примечание, фиксирующее изменения термина в тезаурусеEditorialNote Class 0..* Примечание для редакторов, используемое при редактиро­ вании тезаурусаDefinition Class 0..* Примечание, дающее определение термина, не обязательно ограниченное значением понятия, обозначаемого этим тер­ мином в данном тезаурусе- Атрибуты класса Definition- source String 0..1 Лица или документы, откуда было получено определениеCostom TermAttribute Class 0..* Дополнительный атрибут термина -Атрибуты класса Costom TermAttribute- texicalValue String 1 Словесное представление атрибута- CostomAttributType String 1 Указание на конкретный вид атрибута-tang Language 0..1 Язык строки lexicafValue Специализации класса ThesaurusTermPreferedTerm Class Термин, выбранный в качестве метки понятияSimpleNonPreferedTerm Class Термин, который служит как альтернативная метка понятия, но не является дескриптором - Атрибуты класса SimpleNonPreferedTerm-hidden Boolean 0..1 Флажок да/нет. показывающий, можно ли термин исключать из некоторых видов выходных формSplHNonPreferedTerm Class Термин, который представляет комбинацию двух или более понятий тезауруса- Ассоциации классов PreferedTerm и SimpleNonPreferedTerm- Equivalence Association class- - Атрибуты класса Equivalence--ro le Class 0..1 Уточнение типа отношения эквивалентности. Обычно это USE. связывающий исходный SimpleNonPreferedTerm сPreferedTerm- - Классы, связанные посредством Equivalence- - PreferedTerm Class 1 Термин, связанный с данным исходным термином отноше­ нием. указанным в «role». Напр. если роль — USE. то это ссылка на дескриптор, который следует использовать вме­ сто данного аскриптора 8 4
ГОСТ Р 7.0.91— 2015Окончание таблицы 8 Э л е м е н т Тип С та тус О п и са н и е - - SimpteNonPrefered- Class 0 . . * Исходный термин отношения, с которым данный терминТвгт связан отношением, указанным в «role». Напр. если роль — USE. то это ссылка на аскриптор, вместо которого употре­ бляется данный дескриптор - - Ассоциации классов PreferedTerm и SplitNonPreferedTerm- - CompoundEquivalence Association class- - Классы, связанные посредством CompoundEquivalence- - SptitNonPreferedTerm Class 0 . .* Аскриптор. именующий сложное понятие, представленное комбинацией дескрипторов. См. 8.5- - PreferedTerm Class 2 . .* Один из двух или нескольких дескрипторов, которые со­ вместно представляют данный SplitNonPreferedTerm*) Т а б л и ц а 9 — Атрибуты и ассоциации класса Note Э лем ент Тип С татус О п и са н и еNote Class 0..* Текст, содержащий дополнительные сведения о термине или понятии Атрибуты класса NotelexicalValue Stnng 1 Словесное представление текста примечанияcreated Date 0..1 Дата создания примечанияmodified Date 0..1 Дата изменения примечанияlang Language Код. указывающий язык примечания. Используется в случае, если те­ заурус поддерживает несколько языков Ассоциированные классы класса NoteTesaurusConcept Class 0..* Понятие, на которое ссылается примечание, но не то. к которому при­ мечание напрямую привязано Специализации отдельных типов класса NoteScopeNote Class 0..* Примечание, определяющее или разъясняющее понятиеHistoryNote Class 0..* Примечание, фиксирующее изменения понятия или терминаDefinition Class о.* Определение термина, не обязательно ограниченное понятиями, пред­ ставляемыми терминами тезаурусаEditonalNote Class 0..* Примечания для использования при редактировании тезаурусаCustomeNote Class 0..* Примечание какого-либо другого типа к понятию - Атрибуты класса CustomeNote-noteType Stnng 0..1 Указание конкретного типа примечания16 Интеграция тезаурусов с приложениями 16.1 В ведение Первичная функция тезауруса — это помощь в нахождении информации. Тезаурус обычно ис­ пользуют на двух этапах процедуры нахождения: во время индексирования и во время поиска. Хотя существуют программные пакеты, которые управляют созданием, развитием и ведением тезауруса. 11 В оригинале ошибочно указано «CompoundNonPreferedTerm». 85
ГОСТ Р 7.0.91— 2015 индексированию и поиском в одной интегрированной системе, чаще бывает принято рассматривать эти функции как отдельные приложения. Поэтому необходимо, чтобы тезаурусными данными можно было беспрепятственно обмениваться между этими приложениями, при этом следует избегать ошибок и не­ определенностей при текущем обновлении данных. С распространением электронных сетей и почти всеобщим использованием компьютеров в управ­ лении информацией сценарий становится все более сложным, что дает возможность обмена данными и информацией в масштабе, который раньше нельзя было даже вообразить. Из одного компьютера, включенного в сеть, можно одновременно опрашивать различные коллекции книг, статей, фотографий, наборов данных и музейных экспонатов, размещенные на компьютерах, распределенных по всему миру. Чтобы обеспечить возможность использования тезауруса в подобном сценарии, от систем тре­ буется, чтобы системы были совместимыми, т. е. разные системы или их компоненты были способны обмениваться информацией для внутрисистемного использования. В настоящем разделе описываются: a) свойства и функции, которые обеспечивают совместимость тезауруса с системами и сетями; b ) свойства и ф ункции, которые необходимы программам индексирования и поиска, использую ­ щим тезаурус. Здесь не описываются свойства и функции, необходимые таким приложениям, которые использу­ ют два или более связанных тезауруса. Такие требования будут включены в [6] и следующую версию стандарта. 16.2 С о вм е с ти м о с ть, необ ход им ая д л я те за ур усо в Как описано в 14.8. программное обеспечение, используемое для ведения тезауруса, должно быть способно экспортировать и импортировать тезаурус целиком и по частям. Для этого должен ис­ пользоваться стандартный формат тезауруса (см. раздел 17). Для замены старой версии тезауруса новой должна быть предусмотрена возможность экспорти­ ровать все новые, измененные и исключенные статьи. Когда внедряется новая версия тезауруса, система должна быть в состоянии включить все новые или измененные термины без потери данных, приписанных к сохранившимся терминам, если они еще действительны. Например, отсылки от терминов к ресурсам, которые заиндексированы этими терми­ нами. Для предоставления возможности использования тезауруса пользователями сети (например. Ин­ тернета) тезаурус должен быть опубликован в сети в стандартном формате (см. раздел 17). Опубликованный тезаурус должен регулярно обновляться. Это может потребовать импорта и за­ грузки файла обновлений из приложения, в котором поддерживается эталонная версия. Если тезаурус опубликован в сети, для получения всех или части данных тезауруса должен ис­ пользоваться стандартный протокол (см. раздел 18). Например, программе поиска может потребовать­ ся выбрать всю или часть информации, связанной с отдельным понятием или понятийной группой. С каждым понятием должен быть связан уникальный идентификатор, что облегчает распределенный поиск. Для удобства пользователей и широкого распространения тезаурус должен быть зарегистрирован в каком-либо словарном регистре, который обслуживает целевую аудиторию пользователей. 16.3 И нтеграц ия с пр о гр а м м а м и и н д е кс и р о в а н и я и п о и с ка 16.3.1 Если тезаурус предназначен для информационного поиска, он должен быть совместим с системами, в которых происходит индексирование и поиск. Д ля печатных тезаурусов интеграция д о ­ стигается тем, что человек, просматривая страницы, выбирает термины и вводит их в информационно­ поисковую систему с соответствующим синтаксисом. Для электронных тезаурусов эти функции должны поддерживаться дружественным интерфейсом. Пока ведение тезауруса не объединено в одной системе с индексированием и поиском, первое требование состоит в том. чтобы экспортировать тезаурусные данные из системы ведения тезауруса в информационно-поисковую систему. Форматы и протоколы для этого описаны в разделах 17 и 18. 16.3.2 Все системы, которые вовлечены в обработку тезаурусных данных, должны поддерживать все символы, которые могут быть представлены в данных. Они обычно включают скобки квалификато­ ров терминов и иногда другие знаки препинания. В случае многоязычного тезауруса должны поддержи­ ваться все символы письменностей и алфавитов всех его языков. 86
ГОСТ Р 7.0.91— 2015 16.3.3 Для программ индексирования и поиска, за исключением тех. которые полностью автома­ тизированы и не предусматривают вмешательства пользователя, необходимо обеспечить возможности просмотра и поиска в тезаурусе. Это включает следующее: a) Возможность поиска термина, содержащего какое-нибудь слово, словосочетание или буквосо­ четание. b ) Ж елательно, чтобы бы ла предоставлена помощ ь поиска термина и понятия по обозначению или имеющимся идентификаторам. c) Возможность выбирать и переключать язык интерфейса многоязычного тезауруса, а также ограничивать поиск и выдачу одним из языков. d) Возможность показывать эквиваленты для данного термина, дескриптора (предпочтительного термина) или аскриптора (непредпочтительного термина), включая иноязычные эквиваленты, если те­ заурус многоязычный. e) Возможность переходить от записи для одного понятия к записи для вышестоящих, нижестоя­ щих и ассоциативных понятий, что обычно достигается установлением гиперссылок. Эта возможность может исключить потребность в нотации для связи алфавитного указателя с классификационным или иерархическим. f) Возможность увеличивать или сокращать глубину просмотра классификационного или иерархи­ ческого указателя. Д ля получения начального обзора структуры должна быть предусмотрена возмож­ ность начинать с просмотра верхнего уровня, а затем выборочно увеличивать глубину просмотра. д) Возможность переключать стили просмотра, например от классиф икационного к алфавитному отображению. Предпочтительно, чтобы была возможность одновременного просмотра обоих этих ука­ зателей. 16.3.4 Когда тезаурус интегрирован с поисковой коллекцией документов и имеется необходи­ мость. чтобы пользователь консультировался с тезаурусом, на экране также должно отображаться число использований каждого дескриптора (предпочтительного термина). При просмотре тезауруса пользователь должен иметь возможность перейти прямо к фазе поиска. Должны быть предоставлены следующие возможности: a) Возможность выбрать для поиска один или более терминов, отображенных на экране. b ) Возможность создать поисковое предписание посредством копирования терминов из тезауруса без необходимости повторного набора текста (например, посредством двойного щелчка или перетаски­ вания). Идеально будет, если будет предоставлена помощ ь по включению синтаксиса (например, по выбору булевских операторов). c) Возможность выбрать для поиска иерархические поддеревья тезауруса, т. е. искать по данному термину и по всем нижестоящим к нему терминам, соединенным булевским ИЛИ. что иногда называет­ ся «взрывным» поиском. d) Выбор аскриптора (непредпочтительного термина) должен вести к замене его в поисковом предписании соответствующим дескриптором (предпочтительным термином), при обеспечении пользо­ вателя сведениями об этом. В том случае, когда пользователь ввел в поисковое предписание аскриптор (непредпочтительный термин) без предварительного просмотра тезауруса, ему должно быть предложе­ но конвертировать его в соответствующий дескриптор (предпочтительный термин). Во время процедур улучшения поисковых характеристик в каждом из указателей тезауруса число использований терминов должно соответствовать действительному положению для выбранной коллекции данных. 16.3.5 Тезаурус также можно использовать в поисковой машине без предъявления его пользова­ телю для просмотра. Для этого типа использования могут быть предусмотрены возможности, указан­ ные в 16.3.4. перечисления с) и d).ПримерыA) Если пользователь вводит термин, сходный с одним или несколькими терминами тезауруса,поисковая машина может ответить яВы имели в видутаким способом предлагая пользовате­л ю ближайшие подходящие дескрипторы тезауруса.B) Если пользователь вводит термин, сходный с несколькими терминами тезауруса, он можетв ответ найти результаты по всем этим терминам и рассортировать выдачу по этим терминам.(Например, если тезаурус имеет два термина яturkey (meat)» и яTurkey (country)а, а пользователь ищетпросто яTurkeyа, результаты поиска могут быть представлены двумя списками, соответствующи­ ми каждому из терминов тезауруса.)C) Пользователю может быть предоставлена возможность ярасширять» и ясужать» поиск безобъяснения, как это делается. 87
ГОСТ Р 7.0.91— 2015D )П р и п о л у ч е н и и н е д о с т а т о ч н о й в ы д а ч и п о и с к м о ж е т б ы т ь а в т о м а т и ч е с к и р а с ш и р е н в ы ш е с т о ­я щ и м и , н и ж е с т о я щ и м и и а с с о ц и а т и в н ы м и т е р м и н а м и . Если поисковые термины автоматически конвертируются, замещаются, переводятся, заменяют­ ся вышестоящими или нижестоящими терминами, пользователь должен быть проинформирован, что было сделано. 16.3.6 Отношения эквивалентности в тезаурусе позволяют производить поиск по базам данных, которые не индексировались по данному тезаурусу. Например, если тезаурус включает термины « т о - tor-bikes», «motor-cycles» и «motorcycles» в качестве дескрипторов или аскрипторов (предпочтительных или непредпочтительных терминов) для одного и того ж е понятия, то поиск по любому из этих терминов может быть расширен включением поиска по всем остальным синонимам. См. также обсуждение сино­ нимических колец (synonym rings) в [6]. 16.3.7 При интеграции в систему индексирования или каталогизации должны быть обеспечены следующие функции: a ) копирование одного или более терминов прямо в формуляр индексирования без необходимо­ сти вводить слова с клавиатуры: b ) проверка по тезаурусу терминов, введенных напрямую (при вводе напрямую аскриптора не­ предпочтительного термина), он должен бы ть заменен на дескриптор автоматически с извещением об этом пользователя. При вводе строки символов, совпадающ ей с началом одного или более терми­ нов тезауруса, индексатору должны быть предложены для выбора все соответствующие дескрипторы (предпочтительные термины): c) возможность ввода в тезаурус кандидатов в дескрипторы для рассмотрения их редактором тезауруса (см. 13.6). 16.3.8 Если система предназначена для автоматического индексирования, а не для работы спе­ циалиста, то должны быть предусмотрены средства связи каждого дескриптора (предпочтительного термина) с алгоритмом или правилами, которые управляют его использованием.17 Обменные форматы Взаимодействие различных компьютерных приложений требует использования общего формата. Хорошо известны следующие четыре формата: - MARC (Mashine-Readable Cataloging) [22] — Этот набор стандартов, основанный на ИСО 2709, широко используется для обмена библиографическими данными между библиотеками. Хотя основное применение этих стандартов относится к обмену каталожными записями, в набор входят также стан­ дарты по обмену «авторитетными записями», т. е. записями, взятыми из тезаурусов и других типов контрольных словарей. О собое значение имеют: 1) MARC 21 Формат для авторитетных данных (имеется в полной и сокращенной версии) [23]: 2) MARC 21 Формат для классификационных данных (имеется в полной и сокращенной версии) [24]; 3) MADS (Metadata Authority Description Schem a) — совместимый c MARC 21 формат описания на XML данных того типа, которые содержатся в записях авторитетных данных. Форматы MARC, выраженные на языке XML. соответствуют [25]. - SKOS — Формат SKOS (Simple Knowledge Organization Sistems) [26. 27] установлен рекомен­ дацией W3C применительно к работам по семантическому вэбу и использует кодировку XML и RDF (Resource Description Framework). Он разработан как для тезаурусов, так и для классификационных систем, таксономий и других типов словарей. - Z th o s — Zthes [28] первоначально был разработан как прикладной профиль Z39.50 для обмена тезаурусными данными, но впоследствии был развит для использования с SRU (Search and Retrieval via URL: см. раздел 18). - DD 8723-5 — Этот проект британского стандарта предлагает схему XML, которую можно исполь­ зовать для обмена тезаурусом, удовлетворяющим британскому стандарту BS 8723 [29]. Схема доступ­ на на http://schem as.bs8723.org/. Дополнительно к этим четырем форматам для удовлетворения потребностей отдельных сфер применяют и другие форматы. В частности, находит применение [30] — Система разметки терминологических данных TMF (Ter­ minological M arkup Framework) для компьютерных работ в терминологии. Эта схема разработана для обеспечения единых принципов представления данных в терминологических коллекциях. Она включа- 88
ГОСТ Р 7.0.91— 2015 ет метамодель и методы описания специализированных терминологических языков разметки (TML), выраженных форматом XML. Эта разработка поддерживает использование и развитие компьютерных приложений к терминологическим данным и обмен ими между различными приложениями. Категории данных и методы описания структур данных определены в [31] и других родственных международных стандартах ИСО. Поскольку ни один из существующих форматов не способен передавать все особенности тезауру­ сов. использующих модель раздела 15. рекомендуется формат XML. Похоже на то. что в течение некоторого времени будут сосуществовать несколько различных фор­ матов. Один из путей минимизации неудобств множественности форматов состоит в том. чтобы кон­ вертировать данные подходящим преобразователем, даже если некоторая информация будет терять­ ся. если тезаурус преобразуется в формат, не поддерживающий все особенности исходного формата. В настоящее время разрабатывается несколько таких преобразователей. Сайт Schemas (http://www. niso.org/schemasyiso25964) предоставляет место, на котором могут быть найдены будущие разработки.18 Протоколы 18.1 О бщ ие св е д е н и я Протокол является важным инструментом коммуникационного процесса, позволяющим использо­ вать тезаурусы в компьютерных сетях. Используется несколько протоколов, обеспечивающих быстрое получение сведений из тезаурусов с целью индексирования или поиска, как то описано в п. 16.3. В этой быстро развивающейся области постоянно появляются новые разработки, поэтому создать полный перечень протоколов невозможно. Поскольку каждый протокол имеет силу в своих обстоятельствах и в окружении специф ических приложений, то и те. которые перечислены в п. 18.4 и п. 18.5. тоже могут рассматриваться только для применения в определенных приложениях. 18.2 Ц ели и сл у ча и и с п о л ь зо в а н и я Важно отличать представление тезауруса в целом с его метаданными от поиска отдельных по­ нятий и терминов (или групп понятий и терминов). Протоколы могут быть использованы для представ­ ления и применения тезаурусов, содержащихся в них понятий, терминов и отношений, для описания смысла терминов и облегчения семантической совместимости. Это делается для широкого спектра задач поиска, просмотра, перевода, сопоставления, семантического обоснования, предметного индек­ сирования. классификации, сбора данных, оповещения [32]. 18.3 О кр уж ен и е и а р хи те ктур а пр ил ож ен и й Некоторые протоколы разработаны специально для тезаурусов (см. 18.4), и в то ж е время ис­ пользуются (или адаптируются) другие протоколы общего назначения (см. 18.5). Специализированные протоколы позволяют более интенсивно использовать структуру тезауруса и отношений, а протоколы общ его назначения могут облегчить интеграцию с другими функциями и возможностями систем. Также имеется возможность дополнить протокол общ его назначения тезаурусмым интерфейсом. В некоторых случаях ограниченный набор функциональных команд, предусмотренный определенным тезаурусиым интерфейсом, предоставляет удобство тем. что скрывает детали архитектуры и реализации функций. С другой стороны, иногда большая гибкость протоколов общего назначения может быть с пользой при­ менена квалифицированным разработчиком. Д ля отдельных приложений может оказаться необходимым принять в расчет характер платфор­ мы. на которой реализуется тезаурус, например SOAP [33] или более «легкий» HTTP протокол REST [34] (и другие того же типа) XM L-RPC [35] или JSON-RPC [36]. Некоторые тезаурусы недавно были опу­ бликованы как Liked Data [37] — механизм связи, основанный на использовании RDF и URI. что можно рассматривать как вариант REST. 18.4 С п е ц и а л и зи р о в а н н ы е те за у р у с н ы е пр о то ко л ы Заслуживают упоминания три протокола: — SWAD-E SKOS API — Это протокол программирования приложений (Web Service API), пред­ назначенный для обеспечения доступа к тезаурусам и другим простым системам организации знаний (SKOS) через Интернет. Он определяет ядерный набор операций для программируемого доступа и 89
ГОСТ Р 7.0.91— 2015 опроса тезауруса. Рассчитанный на сетевые запросы, сам API сохраняет независимость от деталей конкретной реализации. Этот протокол может быть адаптирован и к форматам, отличным от SKOS. В то время как SKOS API — результат работ по европейскому проекту Sem antic W eb Advanced Development (SWAD — Перспективное развитие семантического вэба), сам SKOS поддерживается рабочей группой Sem antic Web Deploiment (SW DW G — Рабочая группа развертывания семантического вэба). — Д р у ги е A P I — В настоящее время используют множество различных адаптаций SKOS API на различных платформах. Существуют также похожие, но независимые тезаурусные протоколы, основан­ ные как на SOAP, так и на REST. Их списки, не претендующие на полноту, ведутся по ссылкам [38) и [39]. — A D L T hesa uru s P ro to c o l — Протокол библиотеки Alexandria Digital Library (ADL) рассчитан на доступ к одноязычному тезаурусу и адаптирован к использованию через Интернет. Он поддерживает оперативный опрос тезауруса и навигацию по нему. Он предлагает возможность «легкого» HTTP д о ­ ступа к тезаурусу. Модель тезауруса, используемая в протоколе, близко следует стандарту ANSI/NISO Z39.19 (40), а его определение дано по схеме XML. 18.5 П р о то ко л ы баз д а н н ы х о б щ е го н азначения, и с п о л ь з у е м ы е с тезаурусам и Для некоторых приложений могут быть полезны следующие протоколы общ его назначения: — S earch W ob S ervices (OASIS) — Эти протоколы основаны на ADP (Abstract Protocol Definition) (41) — эталонная модель, которая способна описывать эти и другие протоколы. Наиболее заметными являются [42] и SRU (Search and Retrieval via URL) [43] с поисковым языком CQL (Contextual Query Lan­ guage) [44]. Рассчитанный на использование с неструктурированными документами OpenSearch проще, a SRU обеспечивает больше возможностей по управлению запросами и выдачей. SRU сфокусирован на XML запросах в Интернете. SRU/CQL в настоящее время пересматривается Техническим комитетом OASIS [45]. Более ранний протокол, известный как SRW. теперь рассматривается как вариант SRU (‘ SRU viaHTTP SOAP' ); SRU основан на протоколе REST, a SRW — на протоколе SOAP. — SPARQL (Simple Protocol and RDF Query Language — Простой протокол и язык запросов RDF) [1] — Установлен оф ициальной рекомендацией Консорциума W W W (W 3C) 2008 года. Он разработан и продвигается консорциумом как ключевая технология семантического вэба. Язык запросов RDF ис­ пользуется для выражения запросов к различным источникам данных, как в тех случаях, когда данные записаны исконно в RDF, так и в случаях, когда они рассматриваются через транслятор. SPARQL об­ ладает возможностью поиска требуемых и возможных графических образов, а также их соединений и разъединений. Его можно рассматривать как язык запросов общего назначения (наподобие SQL для реляционных баз данных), и он может быть использован для опроса тезаурусов, представленных в RDF. совместно с другими наборами данных в том же формате. — Z39.50 — Этот протокол более формально обозначается как 'ANSL/NISO Z39.50 Information retrieval (Z39.50) Application service definition and protocol specification" [46]. SRU/SRW можно рассматри­ вать как варианты ранних версий протокола Z39.50. 90
ГОСТ Р 7.0.91— 2015 Б и б л и о гр а ф и я (1] World Wide Web Consortium. SPARQL Protocol for RDF. W3C Recommendation, 15 January 2008. Available at:http://www.w3.orgTR/rdf-sparql-protocot/ (2] World Wide Web Consortium. XML Schema Part 0: Primer Second Edition. W3C Recommendation. 28 October 2004. Available at http://www.w3.org/TR/xmlschema-0/ (3] W'orld Wide Web Consortium. XML Schema Part 1: Structures Second Edition. W3C Recommendation. 28 October 2004. Available at http://www.w3.org/TR/xmlschema-1/ (4] World Wide Web Consortium. XML Schema Part 2: Datatypes Second Edition. W3C Recommendation. 28 October 2004. Available at http://4vww.w3.org/TR/xmlschema-2/ (5] ГОСТ 7.74 — 96 «Система стандартов по информации, библиотечному и издательскому делу. Информацион­ но-поисковые языки. Термины и определения» (6] ИСО 25964—2:2013 «Информация и документация. Тезаурусы и взаимосвязь с другими словарями. Часть 2. Взаимосвязь с другими словарями»: ISO 25964-2:2013 Information and documentation - Thesauri and interoper­ ability with other vocabularies - Part 2: Interoperability with other vocabularies (7] ИСО 25964.1 (ISO 25964-1:2011 «Information and documentation — Thesauri and interoperability with other vocab­ ularies — Part 1. Thesauri for information retrieval», MOD (8] ГОСТ 7.79 — 2000 «Система стандартов по информации, библиотечному и издательскому делу. Правила транслитерации кирилловского письма латинским алфавитом» (9] ГОСТ Р 7.0.34 — 2014 «Система стандартов по информации, библиотечному и издательскому делу. Правила упрощенной транслитерации русского письма латинским алфавитом» (10] Joint Steering Committee for Revision of AACR. Anglo-American cataloguing rules. 2nd ed.. 2002 revision with 2004 update. London: Facet Publishing for Chartered Institute of Library and Information Professionals. 2004. ISBN 0-85604-469-6 (11] ГОСТ 7.24 — 2007 «Система стандартов no информации, библиотечному и издательскому делу. Тезаурус ин­ формационно-поисковый многоязычный. Состав, структура и основные требования к построению» (12] ISO 8601. Data elements and interchange formats — Information interchange — Representation of dates and times (13] ISO/IEC 10646. Information technology — Universal Coded Character Set (UCS) (14] Object Management Group. Unified Modeling L a n guage"': UML©resource page. Needham. MA: Object Management Group. 2007. (Available at http://wvrw.uml.org/-] (15] Object Management Group. Unified Modeling Language (UML). version 2.1.2. Needham. MA: Object Management Group. 2007. Available at h:tp://www.omg.org/technology/documents/formal/uml.htm (16] Object Management Group. Unified Modeling Language Specification, version 1.4.2. Needham. MA: Object Management Group, January 2005. Available at http://www.omg.org/docs/formal/05-04-01.pdf [Also available from ISO as ISO/IEC 19501:2005] (17] Dublin Core Metadata Initiative. Dublin core metadata elenvent s e t version 1.1. DCMI recommendation. 18 December 2006. Latest version available at http://dublincore.org/documents/dces/ (Full set of DCMI standards available athttp://dublincore.org/] (18] ISO 639 — 1:2002 Codes for the representation of names of languages — Part 1: Alpha-2 code (19] ISO 639 — 2:1998 Codes for the representation of names of languages — Part 2: Alpha-3 code (20] Phillips. A. and M. Davis, eds. Tags for identifying languages. RFC 4646. The Internet Society, September 2006. Available at http://www.ric-editor.org/rfc/rfc4646.txt (21] Internet Assigned Numbers Authority. Language Subtag Registry. Available at: http://www.iana.org/assignments/ language-subtag-registry (22] US Library of Congress Network Development and MARC Standards Office. MARC Standards, http://www.loc.gov/ marc/authority/ (23] US Library of Congress Net-work Development and MARC Standards Office. MARC 21 format for authority data. Washington, DC: Library of Congress. Concise version available online at http://www.loc.gov/marc/authorify/ (24] US Library of Congress Network Development and MARC Standards Office. MARC 21 format for classification data. Washington. DC: Library' of Congress. Concise version available online at http://www.loc.gov/marc/classification/ (25] ИСО 25577 Информация и документация. Электронный формат MarcXchange: Information and documentation — MarcXchange (26] World Wide Web Consortium. SKOS Simple Knowledge Organization System Reference. W3C Recommendation, 18 August 2009. Latest version available at http://www.w3.org/TR/skos-reference (27] World Wide Web Consortium. SKOS Simple Knowledge Organization System Primer. W3C Working Group Note. 18 August 2009. Latest version available at http://www.w3.org/TR/skos-primer (28] Zthes Working Group. The Zthes specifications for thesaurus representation, access and navigation. 17 February 2006. Available at http://zthes.z3950.org' 91
ГОСТ Р 7.0.91— 2015 [29] BS 8723. Structured vocabularies for information retrieval — Guide [30] ИСО 16642—2003 Применение компьютера в терминологических целях. Структура терминологической раз­ метки: Computer applications in terminology — Terminological markup framework [31] ИСО 12620—2012 Терминология, другие языковые ресурсы и ресурсы содержания. Сецификация категорий данных и ведение реестра категорий данных для языковых ресурсов: ISO 12620:2009 Terminology and other language and content resources — Specification of data categories and management of a Data Category Registry for language resouces [32] Tudhope. Douglas. Traugott Koch, and Rachel Heery. Terminology Services and Technology: JISC state o f the art review. Bath. UK: UKOLN, 15 September 2006. Available at: http://www.jisc.ac.uk/media/documents/programmes/ capital/terminology_services_and_technology_review_sep_06.pdf [33] World Wide Web Consortium. SOAP Version 1.2. W3C Recommendation. 27 April 2007. Available at: http://www. w3.org/TR/soap12 [34] Fielding, R. T. “ Representational State Transfer (REST).“ In: Architectural Styles and the Design of Network-based Software Architectures. Chapter 5. University of California. Irvine Ph.D. Dissertation. 2000. Available at: http;//www. ics.uci.edu/-fieldingipubs/dissertation/rest_arch_style.htm [35] XML-RPC [website]. UserLand Software. Inc. Available at: http:// www.xmlrpc.com/ [36] JSON-RPC Specification. JSON-RPC.ORG. 2005. Available at: http://json-rpc.org/wiki/specification [37] Linked Data [website]. Available at: http://linkeddata.org/ [38] KOS-based web services. Pontypridd. UK: University of Glamorgan. Available at: http://hypermedia.research.glam. ac.uk/kos/terminology_services/links/ [39] STITCH (Semantic Interoperability to Access Cultural Heritage). Repository — Related Work [webpage]. Available at:http://www.cs.vu.nl/STITCH/repository/services.htrnl [40] ANSI/NISO Z 39.19:2005. Guidelines for the Construction. Format, and Management of Monolingual Controlled Vo­ cabularies. Available at: http://www. niso.org/standards/z39-19-2005/ [41] Denenberg, Ray. 'Search Web Services — The OASIS SWS Technical Committee Work: The Abstract Protocol Definition. OpenSearch Binding, and SRU/CQL 2.0.“ D-Lib Magazine. 15 (1/2). January/February 2009. Available at: http j7www.dlib.org/dlib/january09/denenberg/01 denenberg.html [42] Clinton. DeWrtt. OpenSearch 1.1. draft 3. Palo Alto. CA: A9.com. Inc. Available at;http://www.ope nsearch.org/Specification s/Ореп Search/1.1/Draft_3 [43] SRU: Search/Retrieve via URL. version 1.2. Washington. DC: Library of Congress. Available at http://vrAw.loc.gov/ standards/sru/ [44] CQL: Contextual Query Language. Washington. DC: Library of Congress. Available at: http://www.loc.gov/standards/ sru/specs/cql.html [45] OASIS Search Web Services Technical Committee [webpage]. Available at: http://www.oasisopen.org/committees/ tc_home.php?wg_abbrev=search-ws 92
ГОСТ Р 7.0.91— 2015 УДК 025.43:006.72(083.74) ОКС 01.140.20 Т62 Ключевые слова: тезаурус, информационный поиск, иерархические отношения, ассоциативные отно­ шения. семантическая эквивалентность терминов, дескрипторы, асхрипторы. логические отношения понятий, форматы представления тезаурусов 93
Редактор О.А. Антошкова Корректор М.В. Бучная Компьютерная верстка Л.А. Круговой П о д п и с а н о о п е ч а т ь 0 8 .02 2 0 1 6 . Ф о р ж а т 6 0 * 8 4 1/а. Уел. леч л . 11.16. Т и р а ж 50 эка. За к. 307 . П о д го то в л е н о н а о с н о в е э л е к тр о н н о й в е рсии , п р е д о ст а в л е н н о й р а э р а б о тч и ко м с та н д а р та Ф Г У П кС Т А Н Д Л Р Т И Н Ф О Р М *. 123 995 М о сква , Гра н а тн ы й п е р ., 4.w w w .g o s tin fo .ruin fo @ g o stin ro .ruГОСТ Р 7.0.91-2015

ФЕДЕРАЛЬНО Е АГЕНТСТВО ПО ТЕХНИЧЕСКОМ У РЕГУЛИРОВАНИЮ И МЕТРОЛОГИИН А Ц И О Н А Л Ь Н Ы Й ГО С Т РС Т А Н Д А Р Т 7 .0 .9 1 -Р О С С И Й С К О ЙФ Е Д Е Р А Ц И И 2015 (ИСО 25964-1:2011) Система стандартов по информации, библиотечному и издательскому делу ТЕЗАУРУСЫ ДЛЯ ИНФОРМ АЦИОННОГО ПОИСКА(ISO 25964-1:2011, MOD) И здание о ф и ц и а л ьн о е С тад*рпш ф «чм 201*узк
ГОСТ Р 7.0.91— 2015Предисловие 1 ПОДГОТОВЛЕН Федеральным государственным бюджетным учреждением науки Всероссий­ ским институтом научной и технической информации Российской академии наук (ВИНИТИ РАН) на основе собственного аутентичного перевода на русский язык англоязычной версии международного стандарта, указанного в пункте 4 2 ВНЕСЕН Техническим комитетом по стандартизации ТК 191 «Научно-техническая информация, библиотечное и издательское дело» 3 УТВЕРЖ ДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому ре­ гулированию и метрологии от 15 декабря 2015 г. Nq 2163-ст 4 Настоящий стандарт является модифицированным по отнош ению к международному стандарту ИСО 25964-1:2011 «Информация и документация. Тезаурусы и их совместимость с другими словарями. Часть 1. Тезаурусы для информационного поиска» (ISO 25964-1:2011 «Information and docum entation — Thesauri and interoperability with other vocabularies — Part 1. Thesauri for inform atkjn retrieval», MOD). При этом дополнительные показатели и требования, включенные в текст стандарта для учета потребностей экономики Российской Федерации выделены подчеркиванием. В настоящий стандарт не включены гра­ фы таблицы 2, содержащие сокращения на немецком, датском, финском, норвежском, шведском и ис­ панском языках, поскольку они не применяются в практике национальной стандартизации и инф орма­ тики. Не включены также информационные приложения и предметный указатель. Поскольку вопросы построения многоязычных тезаурусов регулирует ГОСТ 7.24— 2007. раздел 9 и подразделы 12.3 и 12.4 исключены из настоящего стандарта. Наименование настоящего стандарта изменено относительно наименования указанного между­ народного стандарта для приведения в соответствие с ГОСТ Р 1.5— 2004 (пункт 3.5) 5 ВВЕДЕН ВПЕРВЫЕПравила применения наст оящ его стандарта установлены в ГОСТ Р 1.0— 2012 (раздел 8).Инф ормация об изм енениях к наст оящ ему ст андарт у публикует ся в ежегодном (по состоянию на1 января т екущего года) информационном указат еле «Национальные ст андарт ы», а официальныйт екст изменений и поправок — в ежемесячном информационном указателе «Национальныестандарты» . В случае пересмот ра (замены) или от мены наст оящ его стандарта соответствующееуведомление будет опубликовано в ближайшем выпуске ежсмесяч>юго информационного указателя«Национальные стандарты». Соответствующая информация, уведомление и т екст ы размещают сят акже в информационной системе общего пользованияна оф ициальном сайт е Федеральногоагентства по т ехническому регулированию и мет рологии в сети Интернет (www.gost.ru)© Стандартинформ. 2016 Настоящий стандарт не может быть полностью или частично воспроизведен, тиражирован и рас­ пространен в качестве официального издания без разрешения Федерального агентства по техническо­ му регулированию и метрологии II
ГОСТ Р 7.0.91— 2015Содержание 1 Область прим енения.................................................................................................................................................... 1 2 Термины и опред ел ен и я............................................................................................................................................. 1 3 Символы, сокращения и условные о б о з н а ч е н и я ............................................................................................... 9 4 Тезаурусы. Обзор и назн аче н ие............................................................................................................................. 12 5 Понятия и объем их значения в т е з а у р у с е ......................................................................................................... 14 6 Термины т е з а у р у с а ................................................................................... 17 7 Сложные понятия....................................................................................... 30 8 О тношения эквивалентности в одноязычном к о н т е к с т е ................................................................................ 37 9 М ежъязыковая экв и ва л е н тн о сть...........................................................................................................................42 10 Отношения понятий................................................................................................................................................. 42 11 Фасетный а н а л и з ...................................................................................................................................................... 50 12 Представление и оформление те за у р у с а ......................................................................................................... 51 13 Управление разработкой и ведением тезауруса..............................................................................................61 14 Указания по программному обеспечению для ведения т е з а у р у с а ............................................................70 15 Модель д а н н ы х ........................................................................................................................................................ 74 16 Интеграция тезаурусов с прилож ениям и........................................................................................................... 85 17 Обменные ф о р м а т ы ............................................................................................................................................... 88 18 П р о то ко л ы ................................................................................................ 89 19 Б и б л и о гр а ф и я .......................................................................................................................................................... 91
ГОСТ Р 7.0.91— 2015(ИСО 25964-1:2011) Н А Ц И О Н А Л Ь Н Ы Й С Т А Н Д А Р Т Р О С С И Й С К О Й Ф Е Д Е Р А Ц И И Система ста н д а р то в п о и н ф ор м ац и и , б и б л и о те ч н о м у и и зд а те л ь с ко м у д ел у ТЕЗАУРУСЫ Д ЛЯ И НФ О РМ АЦИОННО ГО ПОИСКА System of standards for information, librarianship and publishing. Thesauri for information retrieval Дата введения — 2016—07—011 Область применения В настоящем стандарте установлены рекомендации, касающиеся развития и ведения инфор­ мационно-поисковых тезаурусов. Эти рекомендации могут быть применены и к другим словарям, ис­ пользуемым в процессе информационного поиска во всех типах информационных ресурсов. При этом возможность такого применения не зависит от типа средств, используемых при передаче информации (текст, звук, неподвижный или движущийся образ, физический или мультимедийный объект), включая базы знаний, порталы, базы библиографических данных, тексты, музейные или мультимедийные кол­ лекции в целом и входящие в их состав самостоятельные единицы. В этом стандарте даются рекомендации, касающиеся развития и ведения информационно-по­ исковых тезаурусов. Эти рекомендации могут быть применены и к другим словарям, используемым в процессе информационного поиска во всех типах информационных ресурсов. Сферой применения настоящего стандарта являются как одноязычные, так и многоязычные те­ заурусы. В сферу действия настоящего стандарта не входит подготовка указателей, помещаемых в конце изданий, однако некоторые из предлагаемых настоящим стандартом рекомендаций могут быть исполь­ зованы и для этой цели. Хотя рекомендации настоящего стандарта не предназначены для создания баз данных или про­ граммного обеспечения, используемого непосредственно в процессе поиска или индексирования, од­ нако содержащиеся в данном стандарте рекомендации по вопросам тезаурусного менеджмента пред­ полагают возможность разработки таких приложений.2 Термины и определения В настоящем стандарте применены следующие термины с соответствующими определениями: 2.1 кл а с с и ф и ка ц и о н н ы й ряд (array): Группа соподчиненных понятий (2.52).ПримерСоподчиненные понятия яouterwear» (верхняя одежда) и «underwear» (нижняя одежда)вместе с понятием вclothing» (одежда) формируют классификационный ряд:clothingодеждаouterwearверхняя одеждаovercoatsпальтоunderwearнижняя одежда 2.2 а с с о ц и а т и в н ы е отн ош ен и я (associative relationship): Отношения внутри пары понятий (2.11), которые не связаны иерархически, однако имеют сильную смысловую связь. 2.3 в ы ш е с то я щ и й тер м ин (broader term): Дескриптор (2.45). обозначающий более широкое по­ нятие (2.11), чем обозначаемое данным дескриптором. П р и м е ч а н и е — Тематическая область более узкого понятия целиком находится внутри тематической области более широкого понятия. Отношения между этими двумя понятиями обычно обозначается меткой ВТ. Бо­ лее подробные объяснения см. в 10.2.1. Издание официальное 1
ГОСТ Р 7.0.91— 2015 2.4 о с н о в а н и е д ел е н и я (characteristic of division): Признак, по которому понятие (2.11) может раз­ деляться на ряд (2.1) болео узких понятий (2.21), каждое из которых имеет значение этого признака, отличное от других. П р и м е ч а н и е — Ср. фасетный анализ (2.21), узловая метка (2.38).ПримерВозрастная группа является основанием деления понятия «люди»:люди(по возрасту)детимолодежьвзрослые. 2.5 кл а с с и ф и ка ц и я (classification), к л а с с и ф и ц и р о в а н и е (classifying): Деятельность, подразуме­ вающая объединение сходных и родственных объектов вместе; разъединение несходных и не имею­ щих родства объектов; и представление результирующих групп в логической и удобной последователь­ ности. 2.6 кл а с с и ф и ка ц и о н н а я схема (classification scheme): Таблица (2.49) понятий (2.11) и предкоор- динированных комбинаций понятий (2.11), организованная классификацией (2.5). П р и м е ч а н и е — В состав классификационной схемы часто входят также указатели понятий. 2.7 т е р м и н -н е о л о ги зм (coined term): Новый термин (2.61). созданный для выражения понятия (2.11), для которого в соответствующем язы ке не существует подходящего термина (2.61). П р и м е ч а н и е — Более подробные объяснения см. в 6.6.5 и 8.3.3.3. 2.8 сл о ж н а я э кв и в а л е н тн о с т ь (compound equivalence): Отношение или соответствие, в рамках которого один термин (2.61) или понятие (2.11) одного контекста представлено двумя или более терми­ нами (2.61) или понятиями (2.11) в другом контексте. 2.9 с о с т а в н о й тер м ин (compound term): Термин (2.61). который в соответствие с морфологиче­ скими законами может быть разложен на самостоятельные отдельные компоненты.Примеры1 В английском языке:«Copper mine» можно расщепить на «сорре» и «mines»; «lawnmowers» можно расщепить на кlawns» и «mower»2 Во французском языке:«mine de cuivre» можно расщепить на кmine» и «гcuivre»; «biodiversite» можно расщепить на «biologie» и «diversite».2 В дуссдам языке;«медные шахты» можно расщепить на «медь» и «шахты»; «биоразнообразие» можно расщепить на «биология» и «разнообразие». П р и м е ч а н и е — Составной термин может состоять как из нескольких слов, так и из одного слова. 2.10 ко м п ь ю те р н о е пр и л о ж е н и е (com puter application): Компьютерная программа или набор компьютерных программ, с помощью которых осуществляется обработка данных высокого уровня в соответствии с определенными потребностями пользователя. П р и м е ч а н и е — В настоящемстандарте компьютерное приложение часто называют просто «приложение». 2.11 п о н я ти е (concept): Единица мысли. П р и м е ч а н и е — Понятия часто имеют несколько разных способов выражения. Они существуют в со­ знании в виде абстрактных единиц, которые независимы от терминов, используемых для их выражения. Они ва­ рьируют в широком диапазоне от очень простых понятий, например, «ребенок*, до очень сложных, например, «законодательство о защите детей». 2.12 ко н т р о л ь н ы й с л о в а р ь (controlled vocabulary): Рекомендуемый список терминов (2.61), ру­ брик или кодов, каждый из которых представляет понятие (2.11). П р и м е ч а н и е — Контрольные словари проектируются для приложений, в которых полезно идентифи­ цировать каждое понятие с помощью одной и той же (постоянной) рубрики, когда проводят классифицирование, индексирование и/или поиск документов. 2
ГОСТ Р 7.0.91— 2015 2.13 м е ж ъ я зы ко в а я э кв и в а л е н тн о с т ь (cross-language equivalence): Отношение эквивалентно­ сти (2.18) между терминами (2.61). представляющими одно и то ж е понятие (2.11) в различных языках. 2.14 м о д е л ь д а н н ы х (data model): Абстрактная модель, описывающая то. как данные представ­ ляются и используются. П р и м е ч а н и е — Модель данных в настоящем стандарте обеспечивает общее определение структуры и семантики тезауруса. Она может быть использована в качестве основы для определения либо модели базы дан­ ных. либо обменного формата тезаурусов. 2.15 д о к у м е н т (d o cum e nt): Любой ресурс, который может быть классифицирован или индекси­ рован для того, чтобы стал возможным поиск содержащихся в нем данных или информации. П р и м е ч а н и е — Это определение распространяется не только на материалы, написанные и отпеча­ танные на бумажном носителе или представленные в виде микрофильма (обычные книги, журналы, диаграммы, карты), но и на непечатные способы передачи информации. Например, такие как машиночитаемые носители и оцифрованные записи, ресурсы Интернета и интранета, фильмы, звукозаписи, люди и организации как носители научных знаний, здания (buildings), местности, монументы, трехмерные объекты действительности, а также собра­ ния и составные части таких единиц. 2.16 в х о д н о й тер м ин , вводящий термин (entry term, lead-in term): Термин (2.61), представленный в контрольном словаре (2.12). но используемый не непосредственно в качестве метаданных (2.33). а для того, чтобы привести пользователя к другому термину (2.61). имеющему статус либо категориаль­ ной метки, либо предметного заголовка, либо дескриптора (2.45). П р и м е ч а н и е — Входной термин в составе тезауруса обычно трактуется как не предпочтительный тер­ мин. или аскриптор. 2.17 э кв и ва л е н тн о е отобр аж ен и е (equivalence mapping): Соответствие, фиксирующее некото­ рое понятие (2.11) в целевом словаре (target vocabulary), которое признается идентичным по объему понятию (2.11) исходного словаря (source vocabulary). П р и м е ч а н и е — См. отношение эквивалентности (2.18). 2.18 отн ош ен и е э кв и в а л е н тн о с т и (equivalence relationship): О тношение между двумя терминами (2.61) в тезаурусе (2.62), показывающее, что оба эти термина обозначают одно и то же понятие (2.11). П р и м е ч а н и е — В обычном словоупотреблении это термины, являющиеся квазисинонимами и они мо­ гут представлять собой слегка различающиеся понятия. Однако включение в тезаурус устанавливаемого между ними отношения эквивалентности определяет, что оба эти термина рассматриваются как представители одного итого же понятия. Когда в одноязычный или многоязычный тезаурус включены два или более термина одного и того же языка, то один из них выбирается в качестве дескриптора, а другой в качестве аскриптора; а когда два или более таких терминов являются представителями разных языков в многоязычном тезаурусе, каждый из них может выступать как дескриптор в своем собственном языке, и эти отношения принято называть межъязыковой эквивалентностью. 2.19 о б м е н н ы й ф о рм а т (exchange format): Машиночитаемый формат для представления инфор­ мации, предназначенный для облегчения обмена информацией между различными приложениями. П р и м е ч а н и е — Обменный формат для тезауруса часто использует язык разметки, например, на основе стандарта XML (Extensible Markup Language) (63. 64, 65. 66] и основывается на модели данных тезауруса. Если модель данных представляет собой общее описание структуры и семантики тезауруса, то обменный формат вы­ ражает это на формальном языке для задачи обмена тезаурусами. 2.20 ф асет (facet): Группа однородных понятий (2.11) одной и той же природной категории.Примеры1 Животные, мыши, нарциссы и бактерии могут рассматриваться как члены фасета живыхорганизмов.2 Копание, писание и кипячение могут рассматриваться как члены фасета действий. 3 Париж, Великобритания и Альпы могут рассматриваться как члены фасета территорий. П р и м е ч а н и я 1 Примерами таких категорий высокого уровня, которые могут быть использованы для группировки понятий в фасеты, являются следующие категории: предмет, материал, действующий агент, действие, место и время. 2 Ср. узловая метка (2.38). 3
ГОСТ Р 7.0.91— 2015 2.21 ф а сетны й анализ (facet analysis): Выявление в предметной области входящих в ее состав понятий (2.11). сгруппированных в фасеты (2.20). и подразделение понятий (2.11) на более узкие по­ нятия (2.11) на основе специальных оснований деления (2.4). 2.22 ф а сетны й и н д и ка то р (facet indicator): Элемент классификационного индекса, который ука­ зывает начало нового фасета (2.20) внутри синтезированного сложного классиф икационного индекса (2.40). П р и м е ч а н и е — Примерами фасетного индикатора могут служить 0 в десятичной классификации Дьюи, скобки и кавычки в УДК. В прошлом термин «фасетный индикатор» использовался как синоним для термина «узло­ вая метка», но во избежание путаницы в настоящем стандарте такое использование запрещено. 2.23 иер архи че ски е отн ош ен и я (hierarchical relationship): Отношение между двумя понятиями (2.11). при котором объем одного из них полностью находится внутри объема другого. П р и м е ч а н и е — Существует несколько разных типов иерархических отношений. Более подробно об этом см. в 10.2. См. также вышестоящий (родовой) дескриптор (2.3). нижестоящий (видовой) дескриптор (2.37). 2.24 о м огра ф (homograph): Одно, два или более слов, которые пишутся одинаково, но имеют разное значение.Примеры1 В английском языке:Слово «bank» может означать и «финансовый институт», и «берег реки».2 Во французском языке:Слово «avocat» может означать либо юриста, либо фрукт.2 АДУССДОМ ЯЗЫКЕСаган ддга аимшд аиааашкдибй дастенив, ли fa amama. П р и м е ч а н и е — Омографы иногда называют омонимами, хотя последний термин имеет более широкое значение, поскольку включает амофоны. т.е. такие пары терминов как «weights» и «waits* в английском, «тег» и «т&ге» во французском или «код» и «кот» в русском языке, которые пишутся по-разному, а читаются одинаково. 2.25 и д е н ти ф и катор (identifier): Набор знаков, обычно алфавитно-цифровых, обозначающий по­ нятие (2.11). термин (2.61) или какую-то другую сущность, используемый, особенно в компьютерных системах или сетях, для достижения однозначной идентификации внутри определенного контекста или ресурса. П р и м е ч а н и е — Иногда в качестве идентификатора используется классификационный индекс. 2.26 и н д е кс н ы й тер м ин (index term): Термин (2.61) приписанный документу (2.15) в процессе индексирования (2.27). П р и м е ч а н и е — Иногда индексные термины называют терминами индексирования, ключевыми словами или метками. Но два последних термина являются многозначными. В качестве индексных терминов часто исполь­ зуют дескрипторы тезаурусов. 2.27 и н д е кси р о в а н и е (indexing): Интеллектуальный анализ предметного содержания документа (2.15) для идентификации представленных в нем понятий (2.11) и предоставление соответствующих индексных терминов (2.26) для обеспечения поиска информации. П р и м е ч а н и е — Для обозначения этого понятия используется термин «предметное индексирование (предметизация)», но поскольку в настоящем стандарте индексирование таких элементов как имена авторов, даты не рассматриваются, достаточно использовать термин «индексирование». Индексирование может осуществляться как пользователями-людьми, так и в автоматическом режиме. 2.28 и н ф о р м а ц и о н н ы й п о и с к (information retrieval): Все методы и процессы, используемые для того, чтобы выбрать из документной коллекции или сети информационных ресурсов документы (2.15), релевантные информационным потребностям. П р и м е ч а н и е — Это определение включает подбор и исключение документов из выборки, а также их просмотр и другие формы отыскания информации. 2.29 с о в м е с ти м о с ть (interoperability): Способность двух или более систем или компьютеров об­ мениваться информацией и использовать информацию, полученную в результате такого обмена. П р и м е ч а н и е — Словари могут поддерживать совместимость путем включения связей с другими слова­ рями. представления информации в стандартных форматах и путем использования систем, которые поддержива­ ют общие компьютерные протоколы. 4
ГОСТ Р 7.0.91— 2015 2.30 з а и м с тв о в а н н ы й тер м ин (loan term ): Термин (2.61). взятый из другого языка и принятый заимствующим языком.Примеры1 «glasnost»русский термин, который принят в английском языке;2 вgourmet»французский термин, который принят в английском языке; 2 шомпьютевх — английский термин, натааый пиинят в дуссаси ваше. 2.31 ра зм етка (markup): Примечания или какой-либо другой вид кодов, включенных в текст в со­ ответствии с правилами языка разметки (2.32). 2.32 я з ы к р а зм отки (markup language): Набор правил кодирования, которые могут бы ть исполь­ зованы для составления инструкций по интерпретации текста за счет использования примечаний, вклю­ ченных непосредственно в сам текст. П р и м е ч а н и е — Интерпретация касается таких вопросов, как содержание, структура и представление текста. Широко используемые примеры включают HTML (Hipertext Markup Language) (59]. который в основном ка­ сается представления, и XML (Extensible Markup Language) (61.62. 63, 64) и указывает структуру текста. 2.33 м е та д а нн ы е (metadata): Данные, которые идентифицируют атрибуты документа (2.15), для которых типичным является поддержка функций размещения, доступа, документирования, оценки и/ или выбора. П р и м е ч а н и е — Дескрипторы и классификационные индексы, выбранные в процессе индексирования, применяют в качестве значений метаданных. 2.34 м о н о и е р а р х и че с ка я с т р у к ту р а (monohierarchical structure): Иерархическая организация по­ нятий (2.11) в тезаурусе (2.62) или классиф икационной схеме (2.6), в которой каждое понятие (2.11) может иметь непосредственно над собой только одно вышестоящее понятие (2.11). П р и м е ч а н и е — Ср. полииерархическая структура (2.42).ПримерВ моноиерархической структуре понятие «пианино* не может одновременно причис­лят ься и к клавишным инструментам, и к струнным инструментам; чтобы определить его место вструктуре следует выбрать одну из эт их возможностей. 2.35 м н о го я з ы ч н ы й тезаур ус (multilingual thesaurus): Тезаурус (2.62). в котором термины (2.61) и структура отношений представлены на двух или более естественных языках. 2.36 м н о го с л о в н ы й терм ин (multi-word term): Термин (2.61), состоящий более чем из одного слова. П р и м е ч а н и е — Ср. расщепляемый термин (2.9).Пример — Cost benefit analysis, анализ иен и прибыли. 2.37 ни ж есто ящ и й (в и д о в о й ) д е с к р и п т о р (narrower term): Дескриптор (2.45). представляющий п о н я ти е (2.11). которое по значению уже. чем рассматриваемое понятие. П р и м е ч а н и е — Объем видового дескриптора полностью располагается внутри объема родового де­ скриптора. Отношение видового дескриптора к родовому обозначается меткой NT. а статус родового меткой ВТ. Более подробно см. 10.2.1. 2.38 узло ва я метка, метка узла (node label): Обозначение, проставляемое в иерархическом или классиф икационном указателе для того, чтобы показать, как упорядочены термины. П р и м е ч а н и е — Узловая метка не является ни дескриптором, ни аскриптором. Она включает один из двух видов информации: a) имя фасета, к которому принадлежат следующие за ней термины; b) атрибут или основание деления, с помощью которого отсортирован или сгруппирован классификационный ряд близкородственных терминов. См. примеры в разделе 11. 2.39 а с к р и п т о р (non-preferred term, non-descriptor): Термин (2.61). который не приписывают до­ кументу (2.15), а используют лиш ь в качестве входа в тезаурус (2.62) или как указатель для нахождения заменяющ его дескриптора. П р и м е ч а н и е — Ср. входной термин (2.16) 5
ГОСТ Р 7.0.91— 2015ПримерhoundsпесUSE dogsсм. собака1) П р и м е ч а н и е — В этом примере «hound» и «пес»— асхрипторы, a «dogs» и «собака» — те дескрипто­ ры. которые следует употреблять вместо них. 2.40 к л а с с и ф и ка ц и о н н ы й ко д (индекс) (notation, class code, class number, classmark): Набор зна­ ков. представляющий п о н я ти е (2.11) в структурированном словаре (2.56). особенно в классиф икаци­ онной схеме (2.6).ПримерыКлассификационныйСловарь-источникПонятиекод07.04.4Тезаурус Международной организа­Политикаиразвитиеры бо­ции труда (ILO)ловства622.342 2Десятичная классификация Д ью иДобыча золота373.3.016:51УниверсальнаядесятичнаяКурс математики в начальнойклассификацияшколеSBS XEJ ВБиблиографическаяклассифика­Закон об охране исчезающих видовция БлиссаН40-Н42Международная статистическаяГ nayкомаклассификация болезней и сход­ ных состояний здоровья П р и м е ч а н и е — Классификационный индекс иногда используется для того, чтобы отсортировать или разместить понятия в предопределенном порядке и. по желанию, показать в указателе, каким образом структури­ рованы и сгруппированы компоненты сложных понятий. Классификационный индекс может осуществлять связь между алфавитной и систематической частью тезауруса. В контексте классификационной схемы «понятия» часто именуют «темами», особенно, если они подобно приведенным выше примерам отличаются сложностью. 2.41 па рад и гм а ти че ски е отн о ш е н и я (paradigmatic relationship), априорные отношения (a priori relationship): Отношения между понятиями (2.11). которые им внутренне присущи. П р и м е ч а н и е — Такие отношения приводятся в структурированном словаре вне связи с каким-либо индексированным документом. Более подробное обсуждение вопроса о парадигматических и синтагматических отношениях приведено в 4.3. 2.42 п о л и и е р а р хи че ска я с тр у кту р а (pdyhierarchical structure): Такая иерархическая организа­ ция понятий (2.11) в тезаурусе (2.62) или классиф икационной схеме (2.6), при которой каждое понятие (2.11) может иметь более одного вышестоящего (родового) понятия (2.11).ПримерВ полииерархической структуре понятие «органы (музыкальные инструменты)» мо­жет одновременно причисляться и к клавишным инструментам, и к духовым инструментам. П р и м е ч а н и я 1 Ср. моноиерархическая структура (2.35). 2 В полииерархической структуре единичное понятие может появляться более чем в одном месте иерар­ хической структуры тезауруса. Его атрибуты и связи и особенно нижестоящие и вышестоящие термины остаются неизменными вне зависимости от того, где термин встретился. 2.43 п о с тко о р д и н а ц и я (post-coordination): Комбинирование дескрипторов (2.45) из контрольного словаря (2.12). осуществляемое во время поиска. П р и м е ч а н и е — Ср. предкоординация (2.44).ПримерПосткоординированное поисковое предписание «микроволны AND излучения» можетиспользоваться, чтобы получить документы о микроволновом излучении, когда они были проиндекси­рованы с помощ ью отдельных терминов «микроволны» и «излучения», а не с помощью объединенноготермина. 1) Различие шрифтов дескриптора и аскриптора в этом примере соответствует рекомендациям по представ­ лению их в тезаурусе. 6
ГОСТ Р 7.0.91— 2015 2.44 пред ко орд и м ац и я (pre-coordination): Комбинирование понятий (2.11). классов или терминов (2.61) из контрольного словаря (2.12) во время создания этого словаря или во время использования его для индексирования (2.27) или классифицирования (2.5). П р и м е ч а н и е — Ср. посткоординация (2.43).Примеры1 Класс «Общая теория», когда он находится в составе более широкого класса «музыка», соот­носится только с предкоординированной темой «теория музыки», а не с теорией вообще.2 Предкоординированная цепочка «картонпереработка» может появиться в словаре предмет­ны х рубрик или, если она не была туда включена, то она может быт ь синтезирована индексатором,если окажется необходимой для индексирования конкретного документа. 2.45 д е с к р и п т о р (preferred term, descriptor): Термин (2.61). используемый в тезаурусе для пред­ ставления понятия (2.11) при индексировании (2 .2 7 )4 П р и м е ч а н и я 1 Ср. аскриптор (2.39). 2 Дескриптор — это, как правило, существительное или субстантивное словосочетание. 2.46 пр о то ко л (protocol): Соглашение, которое определяет синтаксис, семантику и синхрониза­ цию процесса коммуникации между двумя компьютерами для обеспечения информационного поиска. 2.47 к в а зи с и н о н и м , неполный синоним (quasi-synonym, near-synonym): Один из двух или более терминов (2.61). значения которых в рамках обычного использования, как правило, рассматриваются как различные, но которые в данном контрольном словаре (2.12) могут рассматриваться в качестве меток для одного и того же понятия (2.11).Примерыdiseases, disordersболезни, недомоганияearthquakes, earth tremors деилетелсе/ШЯ. ДаЙСШаВСДИД СО&ШШП. 2.48 а с с о ц и а т и в н ы й тер м ин (related term): Дескриптор (2.45). обозначающий такое понятие (2.11). которое имеет ассоциативную связь (2.2) с рассматриваемым термином. П р и м е ч а н и е — Отношения между ассоциативными терминами обычно обозначаются меткой RT. Более подробные объяснения см. в 10.3. 2.49 кл а с с и ф и ка ц и о н н а я табл ица (schedule): Совокупность терминов (2.61). классиф икацион­ ных кодов (2.40). заголовков, перекрестных ссылок и лексических примечаний (2.50), которая служит для представления содержания и структуры структурированного словаря (2.56). 2.50 л е кс и ч е с ко е п р им еча ни е (scope note): Запись, которая определяет или уточняет семанти­ ческие границы понятия (2.11) в рамках его использования в с тр у кту р и р о в а н н о м с л ов аре (2.56). П р и м е ч а н и е — Термин, используемый как метка для обозначения понятия, при обычном использо­ вании имеет несколько значений. Лексическое примечание используют для закрепления за ним только одного из таких значений и. где это необходимо, оно отсылает к другим понятиям, которые включены или исключены из объ­ ема уточняемого понятия. 2.51 п о и с к о в ы й тер м ин (search term): Термин (2.61), формирующий поисковый запрос или его часть. П р и м е ч а н и е — В контексте настоящего стандарта поисковые термины обычно выбираются из контро­ лируемого словаря. 2.52 с о п о д ч и н е н н о е п о н я ти е (sibling concept): Одно из двух или более понятий (2.11) с одним и тем же ближайшим вышестоящим понятием (2.11). каждое из которых представлено дескриптором (2.45). Более точное определение дано в [5] «Дескриптор: Лексическая единица, выраженная информативным словом (вербально) или кодом и являющийся именем класса синонимичных или близких по смыслу ключевых слов.» В контексте данного стандарта дескриптор отличается от индексного термина тем. что дескриптор рассма­ тривается как компонент тезауруса. 7
ГОСТ Р 7.0.91— 2015ПримерOuterwear (верхняя одежда) и underwear (нижняя одежда) являют ся дескрипторами, ко­торые обозначают соподчиненные понятия, принадлежащие к одному и тому же классификационномуряду:clothingодеждаouterwearверхняя одеждаovercoatsпальтоunderwearнижняя одежда. 2.53 с о п о д ч и н е н н ы й терм ин {sibling term): Один из двух или более дескрипторов (2.45). имею­ щих один и тот же ближайший вышестоящий (родовой) термин (2.3).Пример — Дескрипт оры chairs (сидения) и tables (столы), являю т ся соподчиненными терминамиодного и того же классификационного ряда, в то время как дескрипторы яfurniture (мебель), armchairs(кресла) и dining tables (обеденные столы») соподчиненными терминами не являют ся:furnitureмебельchairsсиденьяarmchairsкреслаtablesстолыdining tables gfietfgflrtfe/e CfflgПЫ 2.54 и с х о д н ы й я з ы к (s o u rc e la ng uag e): Язык, служащий в качестве отправной точки в процессе перевода или поиска эквивалентов для терминов (2.61). 2.55 с п е ц и ф и ч н о с т ь с л о в а р я (specificity): Способность структурированного словаря (2.56) вы­ разить предмет поиска углубленно и подробно. П р и м е ч а н и е — Более подробное объяснение см. обсуждение специфичности в 8.4 и других местах. 2.56 с т р у к т у р и р о в а н н ы й с л о в а р ь (structured vocabulary): Организованный набор те р м и н о в (2.61) . заголовков и кодов, представляющих понятия (2.11) и их взаимосвязи, которые могут быть ис­ пользованы для поддержки информационного поиска (2.28). П р и м е ч а н и е — Структурированный словарь также может быть использован для других целей. В рамках поиска информации словарь нуждается в сопутствующих правилах, описывающих как следует применять тер­ мины. Вопросы различных типов структурированных словарей, в том числе классификационных схем, словарей предметных рубрик и др.. будут переадресованы к настоящему стандарту. 2.57 с л о в а р ь п р е д м е т н ы х ру б р и к, язык предметных рубрик (subject heading scheme, subject heading language, subject heading list. SHL). Структурированный словарь (2.56). состоящий из терминов (2.61) . доступных для предметного индексирования (2.27). плюс правила для объединения их в предкоординироваиные цепочки терминов (2.61) для индексирования. 2.58 с и н о н и м (synonym): Один из двух или более терминов (2.61). обозначающих одно и то же понятие (2.11).ПримерыВ английском языке:guarantees, warranties heart attack, myocardial infarction HIV, human im munodeficiency virusВо французском языке:schiste, phylladeVIH, virus de I'immunodeficience humainecrise cardiaque, infarctus du myocardeВ русском языке:чахотка, туберкулезВИЧ, вирус иммунодефицита человека кровоизлияние в мозг, инсульт. П р и м е ч а н и е — Сокращение и полная формы термина могут рассматриваться как синонимы. 2.59 си н та гм а ти ч е с ки е о тн ош ен и я, апостериорные отношения (syntagm atic relationship, a poste­ riori relationship): Такие отношения между понятиями (2.11), которые существуют только потому, что эти понятия встретились совместно в индексируемом документе (2.15). 8
ГОСТ Р 7.0.91— 2015 П р и м е ч а н и е — Вне рамок индексируемого документа такие отношения, как правило, не действуют, по­ этому они не входят в структуру тезауруса. Для ознакомления с более полным обсуждением синтагматических и парадигматических отношений см. 4.3. 2.60 цел евой я з ы к (target language): Язык, в котором находится перевод или эквивалент термина (2.61) исходного языка (2.54). 2.61 тер м ин (term): Слово или словосочетание, используемое для обозначения по ня ти я (2.11).ПримерыSchoolsшколыschool uniformшкольная дюомаcosts o f schoolingПЛйШй М ШКОЛУteachingпреподавание. П р и м е ч а н и е — Термины тезауруса могут быть либо дескрипторами, либо аскрилгорами. 2.62 тезаур ус (thesaurus): Контрольный (2.12) структурированный словарь (2.56), в котором по­ нятия (2.11) представлены терминами (2.61), организованными таким образом, что отношения между понятиями (2.11) представлены эксплицитно, и дескрипторы (2.45) снабжены указателями перехода от синонимов (2.58) и квазисинонимов (2.47). П р и м е ч а н и е — Задачей, решаемой тезаурусом, является обеспечение того, чтобы как индексатор, так и пользователь выбирали для представления данного содержания (предмета) один и тот же дескриптор или ком­ бинацию дескрипторов. По этой причине тезаурус оптимизирован так. чтобы стать средством навигации и терми­ нологического покрытия предметной области для человека. 2.63 н а и в ы с ш и й те р м и н (top term. ТТ): Дескриптор (2.45). представляющий понятие (2.11), для которого в тезаурусе (2.62) не существует более широкого понятия. 2.64 у п р а в л е н и е с л о в а р е м (vocabulary control): Словарная работа, проводимая для того, чтобы избежать многозначности и упорядочить форму представления терминов (2.61), а также лимитировать число понятий (2.11) и терминов (2.61), допустимых для использования в процессе индексирования (2.27). П р и м е ч а н и е — Цель управления достигается путем различения омографов так. чтобы каждый из них имел только одно значение, и путем выбора из ряда синонимов или квазисинонимов одного, рекомендуемого для использования при индексировании. Цель этих ограничений состоит в повышении вероятности того, что индекса­ тор при индексировании и пользователь при поиске выберут для обозначения определенного понятия один и тот же термин.3 Символы, сокращения и условные обозначения 3.1 В таблице 1 приведены сокращения, которые используются в англоязычных примерах тезаурусных записей в качестве меток к префиксным терминам и записям. Каждая метка указывает на от­ ношение или функцию термина или записи, следующую за ними. 3.2 В тезаурусах на голландском язы ке без перевода используются те ж е метки, что и в тезауру­ сах на английском языке. 3.3 Сокращения, приведенные в таблице 2 в качестве меток, обрели статус общ епризнанных со­ глашений и встречаются во многих опубликованных тезаурусах. Они имеют мнемоническое значение, но применяются только в отдельных языках. В случае использования нейтральной системы аббревиатур рекомендуется использовать симво­ лы из левого столбца таблицы 1. Т а б л и ц а 1 — Символы и сокращения О п и са н и е С и м вол М етка З н а ч е н и е Описательные SN Лексическое примечание элементы DEF Определение HN Историческая справка 9
ГОСТ Р 7.0.91— 2015Окончание таблицы 1 О п и са н и е С и м вол М е тка З н а ч е н и е Коды SC Предметная область. Классификационный код или индекс группы по­ нятий. относящихся к данной теме С О Классификационный код или индекс понятия Отношения —► USE «Используй». Термин, стоящий после этой метки, является дескрипто­ ром. которым надо заменить аскрилтор. предшествующий этой метке U F «Используй вместо» или «Используется вместо». Термин, стоящий после этой метки, является аскрилтором, для которого предшествую­ щий этой метке термин является дескриптором, употребляемым вместо этого аскриптора USE...+ Два или более дескриптора, стоящие после этой метки, следует исполь­ зовать вместе для того, чтобы представить понятие, предшествующее этой метке UF...+ Аскрилтор. стоящий после этой метки, должен быть представлен комби­ нацией дескрипторов, один из которых предшествует этой метке Т Т Наивысший термин. Предшествующий этой метке дескриптор является самым широким по объему понятием в иерархии, к которой принадле­ жит данное понятие < ВТ Вышестоящий термин. Стоящий после этой метки термин представляет понятие с более широким значением BTG Выше — род. Более широкий теомин. обозначающий класс (оод). в котолый входит данное видовое понятие BTI Выше — множество. Более широкий теомин. обозначающий множество. в которое входит данное понятие ВТР Выше — целое. Более широкий теомин. обозначающий целое, в кото- D o e входит данное понятие в качестве составной части NT Нижестоящий термин. Стоящий после этой метки термин представляет понятие с более конхретным значением NTG Ниже — вид. Более узкий термин, обозначающий подкласс (вид) данного родового понятия NTI Ниже — элемент. Более узкий термин, обозначающий элемент множества. представленного данным понятием NTP Ниже — часть. Более узкий термин, обозначающий составную часть объекта, представленного данным понятием RT Ассоциативный термин. Следующий за этой меткой термин является ассоциативным термином, но не синонимом, не квазисинонимом, не вышестоящим и не нижестоящим термином Т а б л и ц а 2 — Метки на английском языке и их эквиваленты на других языках М е тка иа а н гл и й ско м язы ка М е тка н а ф р а н ц у зс ко м я зы ке М е тка на ки та й ско м я зы ке М о тка н а р у сско м я зы ке SN NE J лп Scope note Note explicative bШ jie Лексическое примечание Note d'empkx USE EM Y см Use EmployerЩ yong Смотри 10
ГОСТ Р 7.0.91— 2015Окончание таблицы 2 Метка на английском языке Метка на французском языке Мети на китайском языхе Метка на русском языке UF ЕР D С Use for Employer pour f td a i СинонимUsed for 3Етр1оуё pour 3 ВТ TG S в Broader term Terme generique Я shu Выше NT TS F н Narrower term Тепле specifiqueИ fen Ниже RT TS С а Related term Terme associ§ ?£ сап Ассоциация BTG TG вр Broader term (generic) Terme generique (g£n6rique) Выше — род BTP TG ВЦ Broader term (partitive) Terme generique (partitif) Выше — целое BTI TG Broader term (instantial) Terme generique (instance) Выше — множество NT TS н в Narrower term (generic) Terme specifique (generique) Ниже — вид NT TS нч Narrower term (partitive) Terme specifique (partitif) Ниже — часть NT TS из Narrower term (instantial) Terme specifique (instance) Ниже — элемент П р и м е ч а н и е — Набор языков в таблице 2 — открытый. Следующие издания этой части ИСО 25964 могут включать дополни тел ьные метки. Для использования в национальном стандарте России из таблицы 2 и с- кточены языки, не являющнеся официальными языками ИСО. 3 Строки курсивом показывают варианты расшифровки меток. ь Французский стандарт AFNOR Z47-100 предлагает метку N A— Note d'application. 3.4 В настоящем стандарте следующие соглашения также используются. Следует обратить вни­ мание. что эти соглашения не являются обязательными для всех тезаурусов. a) Распределение заглавных и прописных букв в дескрипторах совпадает с тем. как это имеет место в полном печатном тексте. Как правило, это означает, что нижний регистр используется во всех случаях, кроме случая использования верхнего регистра в составе сокращений и начальных букв в собственных именах.Примеры 1> animalsживотныеcarsавтомобилиWorld Health OrganizationВсемирная организация здравоохранения b ) Аскрипторы набирают курсивом.ПримерыanimalsfaunaUF faunaUSE animalscarsautomobilesUF automobilesUSE cars 11 В настоящих примерах прямой и курсивный шрифгы терминов применяются в соответствии с рекоменда­ циями насюяшего стандарта по представлению дескрипторов и аскрипторов в тезаурусах. 11
ГОСТ Р 7.0.91— 2015World Health OrganizationWHOUFWHOUSE World Health Organizationживотныефаунас Фаунаавтомобили с автомашинысм автомобилиВсемирная организация здравоохраненияВОЗс ВОЗсм Всемирная организация здравоохранения4 Тезаурусы. Обзор и назначение 4.1 О бщее назначение Основным назначенном тезауруса является обеспечение того, чтобы как при индексировании, так и при поиске были выбраны в качестве отражения одного и того же понятия одни и те же термины. Для достижения этой цели в тезаурусе, во-первых, должны быть заданы все понятия, которые могут быть полезны для обеспечения поиска в данной области. Понятия представляют с помощью терминов, и для каждого понятия одно из таких возможных представлений выбирают в качестве дескриптора (см. 4.2 и 6.6). Во-вторых, тезаурус должен представлять дескрипторы таким образом, чтобы пользователь мог легко идентифицировать тот дескриптор, который ему нужен. Это достигается путем задания отнош е­ ний между терминами и/или понятиями (см. разделы с 8 по 10) и путем использования этих отношений при создании структурированных указателей терминов. При включении в системы поиска или индексирования терминов и отношений тезауруса они могут быть использованы по-разному, в частности: - как средство расширения поиска; - для предложения альтернативных поисковых терминов: - для поддержки кластеризации результатов или других средств совершенствования поиска; - для выявления типичных орфограф ических ошибок; - для поддержки автоматического индексирования. Взаимосвязь терминов, понятий и отношений иллюстрируется на модели данных в разделе 15. Из практических соображений в этой части ИСО 25964 обычно идет речь о «терминах». Но никогда не следует забывать, что целью манипулирования терминами является поддержка поиска обозначаемых ими понятий. 4.2 С л о в а р н ы й к о н т р о л ь и его назначение Процесс принятия решения о предоставлении термину права представлять определенное поня­ тие не всегда является однозначно простым, поскольку понятие часто может быть выражено не одним способом. Более того, в обычном словоупотреблении некоторые термины могут иметь более одного значения. Поэтому словарный контроль является существенным моментом, и тезаурусы применяют для обеспечения однозначности путем использования следующих двух принципиально важных при­ емов. а) Сфера применения понятий и терминов намеренно ограничивают предписанными значениями. В отличие от терминов таких словарей, в которых слова даются в сопровождении целого ряда различ­ ных определений, отражающ их нормативное использование, каждый термин в тезаурусе, как правило, бывает привязан к тому или иному единственному значению, которое наиболее эффективно отражает потребности поисковой системы. Структура тезауруса, особенно представление в указателе иерархи­ ческих отношений, часто указывает на нужное значение термина. Если это ограничение не достаточно очевидно, термин должен быть снабжен лексическим примечанием. Это примечание должно уточнить значение выбранного термина и может также указывать на другие значения, известные в естественном языке, которые были сознательно исключены для целей информационного поиска. б) Если в одном и том же языке одно и то же понятие может быть выражено двумя или более сино­ нимами или кваэисинонимами. то в качестве дескриптора, как правило, выбирают один из этих терми­ нов. который затем последовательно используют в качестве дескриптора в процессе индексирования 12
ГОСТ Р 7.0.91— 2015 как главный или единственный термин, выражающий соответствующее понятие. При этом от любого синонима, который может понадобиться пользователю при обращении к тезаурусу, должна быть дана ссылка на заменяющий его дескриптор. При осуществлении словарного контроля одним из последствий использования мер. описанных в перечислениях а) и Ь) является то, что полученные выражения могут не соответствовать. Тезаурус игра­ ет важную роль в посредничестве между терминами, используемыми в обычном словоупотреблении, и теми терминами, которые эффективно функционируют в процессе поиска информации. Для достиже­ ния эффективности поиска пользователи должны использовать с определенной степенью искусствен­ ности контрольного словаря (хотя в некоторых системах эта трудность может быть преодолена за счет автоматической замены термина пользователя дескриптором). Д ля того чтобы тезаурус мог эффективно функционировать в многоязычном контексте, включае­ мые понятия должны быть представлены во всех используемых языках, обеспечивая доступ носителям этих языков. Если тезаурус является «симметричным», как описано в настоящем стандарте и смоде­ лировано в разделе 15. то для каждого понятия должен существовать дескриптор в каждом из языков, и объем понятий должен быть одинаковым во всех языках. Это ограничение иногда вносит свой вклад в искусственность языка. Альтернативные подходы (например, использование метода сопоставления словарей) будут описаны в следующей версии стандарта [6]. 4.3 П а р ад игм а ти че ски е и си н та гм а ти ч е с ки е отн ош ен и я Целью установления отношений и отображения их в указателе является указание пользователю (или специалисту, действующему от его имени) нужного направления для выбора наиболее подходя­ щего термина, выражающего данное понятие. Это достигается путем демонстрации таких терминов, которые пользователь мог бы выбрать вместо или наряду с терминами, выбранными им изначально. Примеры приведены в разделе 12. В любом языке между терминами индексирования, как правило, наблюдаются отношения следу­ ющих двух видов. a) отношения, называемые синтагматическими, фиксируются в том случае, когда понятия встре­ чаются вместе в контексте конкретного документа. Иными словами, если два или более термина ин­ дексирования приписаны одному и тому же документу, то тем самым между ними установлено синтаг­ матическое отношение. Однако включение синтагматических отношений в тезаурус не рекомендуется.ПримерИндексатор работы о ккомпьютерах в амстердамских банках» может выделить трипонятия, выражаемые, соответственно, терминами «банки (финансовые учреждения)», «компьюте­р ы » и «Амстердам». Он присвоит их этому документу. В посткоординированной системе связь меж­ду этими терминами в метаданных эксплицитно не указывается, но документ, тем не менее, можетбыт ь найден, если лю бой или все эти термины были использованы в качестве поисковых ключей.В предкоординированном указателе любая комбинация эт их трех терминов может быть приведенавместе со ссылкой на то место, где соответствующий документ может быть найден. Понятия изданного примера в рамках обыденных отношений, как правило, никак друг с другом не связаны, поэтомуих взаимосвязь должна рассматриваться как зависящая от документа. b ) парадигматическими называют отношения, которые значимы почти во всех контекстах, осо­ бенно если они внутренне присущи понятиям, которые представлены этими терминами. Наличие па­ радигматических отношений между тезаурусными понятиями продемонстрировать целесообразно, так как они часто ведут пользователей к понятиям, тесно связанным с теми терминами, которые пришли в голову первоначально.ПримерНезависимо от темы индексируемого документа понятия из предыдущего примераимеют такие сущностные связи: «банки (финансовые учреждения)» с более широким понятием «фи­ нансовые институты»; «компьютеры» уст ойчиво ассоциируют связь с понятием «обработка дан­ ных», а понятие «Амстердам» неразрывно связано с понятием «Нидерланды». Найдя в словаре любойиз этих связанных между собой терминов, пользователь может быть заинтересован в информации,заиндексированной с помощью связанного термина. Такие парадигматические отношения не зависятот какого-либо конкретного документа. Они, как правило, распознаются и могут быть установленыблагодаря ссылке на такие обычные издания как словари и энциклопедии. Различие между этими двумя видами отношений может быть отображено так, как показано на рисунке 1. 13
ГОСТ Р 7.0.91— 2015 Парадигматические Нидерланды Финансовые Обработка данных отношения институты терминов/понятий в тезаурусе Амстердам Банки Компьютеры Синтагматические отношения между терминами/понятиями в документе Рисунок 1 — Парадигматические и синтагматические отношения 4.4 Т и п ы па р а д и гм а ти ч е с ки х отн ош ен и й Устанавливают и четко разграничивают три типа парадигматических отношений между терминами (а), либо между понятиями (Ь) и (с): a) отношения эквивалентности, которые применяются в случае как одноязычных, так и многоязыч­ ных ситуаций (см. разделы 8 и 9. соответственно); b ) иерархические отнош ения (см. раздел 10.2); c) ассоциативные отношения (см. раздел 10.3). Дальнейшее деление каждого из этих классов описано в разделах 8 — 10. Каждое из этих отно­ шений должно быть охарактеризовано как симметричное (взаимное), и это должно быть обозначено с помощью системы меток, символов или сокращений, используемых для представления отношений в тезаурусе. В иллюстративных примерах ниже использованы метки, описанные в разделе 3.5 Понятия и объем их значения в тезаурусе 5.1 К о н ц е п ту а л ьн а я о сн о в а 5.1.1 Главная прикладная задача тезауруса — это информационный поиск, целью которого яв­ ляется поиск понятий. Как было разъяснено в 4.1 и 4.2, понятия отображаются терминами. Каждый включенный в тезаурус термин должен отображать одно понятие (или единицу мысли). Понятия могут варьировать от простых (например, «кошки»), д о очень сложны х (например, «расовая дискриминация этнических меньшинств»). Для отображения более сложных понятий, как правило, требуются состав­ ные термины или фразы. Более полное обсуждение этих вопросов представлено в разделе 7. 5.1.2 Включенные в тезаурус понятия могут рассматриваться как принадлежащие к взаимоисклю­ чающим категориям, выявляемым на основе общ их характеристик. Приводимый ниже набор примеров является иллюстративным и не является списком всех возможных категорий. а ) Предметы и их физические части;Примеры1 birdsптицы2 birth certificatesсвидетельства о рождении3 limbsчасти тела4 microformsмикроформы5 monumentsмонументы6 mountain regionsгорные массивы П р и м е ч а н и е — Физические части предметов также являются предметами и могут иметь свои собствен­ ные части. b ) М атериалыПримеры1 adhesivesклеи2 rubberрезина3 titaniumтитан c) Действия и процессы;Примеры1 dressmakingшитье одежды2 fertilizationоплодотворение3 glaciationобледенение4 land managementземлеустройство 14
ГОСТ Р 7.0.91— 2015 d) События и явления:Примеры1 birthdays ttou дажДашш2 c iv il warsгражданские войны3 revolutions дгадлмшш е) Свойства людей, предметов, материалов или действий:Примеры1 consciousnessс ознательность2 elasticityш т и ч и ш п и3 personalityиндивидуальность4 speed 0 Дисциплины или предметные поля:Примеры1 archaeologyархеология2 organic chem istry gflgflfllrtSfififlfl ДЦДЩД3 theologyбогословие д) Единицы измерения:Примеры1 hertzгерц2 kilometersкилометр h) Типы людей и организаций:Примеры1 charitiesблаготворительные учреждения2 childrenдети3 international nongovernmental organizationsмждмаводный мддаашдадшвшшыаорганизации4 nationsнации5 poetsпоэты6 visually impaired peopleпииа с надшедшим зпеиия 5.1.3 Уникальные сущности, обозначаемые с помощью имен собственных, также могут быть включены в тезаурус, при этом их следует использовать только для записей, в которых говорится о дан­ ном человеке, документе или предмете и т. п. Если обозначение некой сущности именем собственным не является темой (предметом) документа, а имеет к документу какое-то другое отношение, например, оно является автором (создателем) документа или входит в состав его названия, то такое имя собствен­ ное не должно стоять в одном ряду с предметными терминами, а должно быть приписано документу в другом месте. Имена собственные также распределяются по категориям подобно понятиям в 5.1.2; а) место.Примеры1 AustraliaАвстралия2 M ilky WayМлечный Путь3 South KensingtonЮжный Кенсингтон4 Sri LankaШри Ланка Ь) специфические объекты, топографические характеристики и другие сущности.Примеры1 Magna CartaВеликая хартия вольностей2 Mona LisaМона Лиза3 Nelson's Column Аельсддд ва калддла4 Romeo and JulietРомео и Джульетта5 SkylabСкайлэб. 15
ГОСТ Р 7.0.91— 2015 с) физические лица, должности и юридические лица (организации),Примеры1 Burns, RobertБернс. Роберт2 United Nations Secretary-GeneralГенеральный секретарь ООН3 World Health OrganizationВсемирная организация здравоохранения. 5.2 Л е кс и ч е с ки е пр им еча ни я Объем понятия, предусмотренный в тезаурусе, не всегда совпадает со значением, ассоциируе­ мым в обычном употреблении с соответствующим дескриптором (или каким-либо из аскрипторов. за­ меняющих этот дескриптор). В тезаурусе контекст, как правило, понимаемый как иерархия вышесто­ ящих и нижестоящих понятий, имеющих связи с рассматриваемым дескриптором, помогает уточнить желаемый объем понятия. Часто удается осуществить подбор такого однозначного дескриптора для определенного понятия, который доносит правильный выбор желаемого объема понятия д о любого пользователя (см. 6.2.2). О днако в тех случаях, когда это сделать не удается, или когда дополнительная информация может внести ясность в вопрос о выборе определенного значения и сделать использо­ вание дескриптора более последовательным, целесообразно использовать поясняющие лексические примечания. Лексические примечания следует использовать для уточнения границ понятия, особенно в тех случаях, когда значение дескриптора в обычном употреблении трактуется как более широкое, или бо­ лее узкое, или когда требуется разграничить такие дескрипторы, значения которых в естественном язы­ ке имеют общ ую часть значения. Лексическое примечание также может быть использовано и для того, чтобы снабдить как индексатора, так и лольэователя-поисковика рекомендациями, обеспечивающими использование одной и той же терминологии. Лексические примечания не должны давать полное опре­ деление, а призваны служить лиш ь разъяснением предполагаемого в тезаурусе использования терми­ на. В тезаурусе отдельно могут быть представлены другие виды примечаний, а именно — определения (см. 6.2.3) и исторические справки (см. 6.2.4). В отличие от квалификаторов, рассматриваемых в 6.2.2, лексические примечания не трактуются как составная часть того термина, к которому это примечание относится.Примеры1 microwave frequencies CfigC4gfclC0«Ufi М Ш И ШSN 1 GHz to 300 GHznn От 1 do 300 ГГи2 illum inationsиллюминацииSN Includes both the ornamental ЛЛ ДШСМДИП «flit ДВЙПЮДЩШШа Ш Щ Щ Щdecoration and the illustrations in Л Ш U Щ Щ Ж ПШ Ш Ш . fi jUflffifltffiffiL fl (П А Ш fimanuscripts, as well as in some earlyишаП1ВВЫ& В Ш Ш Д Ш Ш М Ш Ш Ь . ВШ 1 ShLprinted bucks, if done by handПОЛИВНЫ SBY4HYIQ 5.3 В заи м н ы е л е кс и ч е с ки е пр им еча ни я Когда в примечании дается ссылка на другие понятия, то. как правило, каждое из этих понятий должно быть снабжено взаимным лексическим примечанием.Примеры1 В английском языке:food productsSN Use only fo r products intended for human consumption. For products fo r animals, see pet­ foods o r feeds (Использовать только для продуктов, предназначенных для потреблениячеловеком. Продукты для животных, см. petfoods или feeds),petfoodsSN Food products fo r animals maintained as domestic pets. For products for human consump­ tion. see food products. For products intended fo r non-domestic animals, see feeds (Продуктыпитания для животных, содержащихся в доме. Продукты для потребления человеком см.food products. Продукты, предназначенные для нводомашненных животных, см. feeds),feedsSN Products intended for non-domestic animals. For products for domestic pets, see petfoods.For products fo r human consumption, see food products (Продукты, предназначенные для не-одомашненных животных. Продукты для домашних животных, см. petfoods. Продукты,потребляемые человеком, см. food products). 16
ГОСТ Р 7.0.91— 2015 2 Во французском языке:statistiqueNE Designe la science statistique: po ur les donnees statistiques empoyer "statistiques”statistiques (Обозначает статистику как науку: для статистических данных использо­ вать statistiques).statistiquesNE Designe les donnees statistiques; pour la science statistique, empoyer "statistique" (Обо­значает статистические данные. Д ля статистики как науки использовать statistique).3 В русском языке:пищал п Средства питания человека. Средства кормления животных, см. корм,кормл п Средства кормления животных. Средства питания человека, см. пища. Даже если примечание требуется для уточнения только одного из понятий, все ж е полезно сде­ лать редакционное примечание (см. 15.2.14) в записи каждого дополнительного понятия, где оно упомя­ нуто. Взаимные ссылки употребляются для того, чтобы быть уверенным в том. что при изменении како­ го-либо понятия или при его удалении эти изменения отразятся и на других рассматриваемых понятиях.6 Термины тезауруса 6.1 Ф ор м а терм ина Термины, выбранные для представления понятий, могут быть как однословными, так и много­ словными (см. раздел 7). 6.2 Уточнение и у стр а н е н и е н е о д н о зн а чн о с ти те р м и н о в тезауруса 6.2.1 О бщ ие в о п р о с ы В обычном языковом употреблении единичный термин может иметь более одного значения, и при этом самое востребованное общеязыковое значение не всегда соответствует тому понятию, которое востребовано в тезаурусе. Если контекст, обеспечиваемый иерархией вышестоящего и нижестоящего понятий, связанных с рассматриваемым понятием, недостаточен для выяснения предполагаемого объ­ ема понятия, то следует принять дополнительные меры. Поскольку все термины тезауруса должны быть выражены с наибольшей возможной степенью однозначности, особенно важно сформировать дескриптор для данного понятия таким образом, чтобы он делал понимание выбранного объема до­ ступным для любого пользователя. Например, чтобы многозначный термин «депрессия» в зависимо­ сти от обстоятельств употребления можно было бы интерпретировать как «экономическая депрессия» или «метеорологическая депрессия». Для этого может быть использован квалификатор (см. 6.2.2). В тех случаях, когда это неудобно или недостаточно, или там. где дополнительная информация поможет разъяснить смысл и сделать использование более последовательным, следует сформулировать раз­ вернутое лексическое примечание (см. 5.2). 6.2.2 О м о гр а ф ы и р о л я то р ы (кв а л и ф и ка то р ы ) Омографы (иногда для них используют более широкий термин «омонимы») — это слова, имею­ щие одинаковое написание, но разные значения.ПримерCranes (Этот термин может относиться либо к птицам, либо к грузоподъемномуоборудованию). Если омографы используют в качестве терминов тезауруса, то значение каждого из терминов должно быть уточнено. При этом в качестве традиционного способа уточнения используется добавле­ ние заключенного в скобки релятора. Релятор должен быть как можно короче и в идеале состоять из одного слова. Часто, являясь более широким термином, релятор призван указывать на контекст или предметную область, к которой рассматриваемое понятие относится. Он не является лексическим при­ мечанием. а входит в состав термина (см. п. 5.2).Примерcranes (birds)лебедки (птицы)cranes (lifting equipment)лебедки (подъемные устройства). 17
ГОСТ Р 7.0.91— 2015 Релятор следует добавлять к каждому омографу, даже если в предметной области тезауруса один из его смыслов в большей степени привычен, чем все другие. Например, в английском языке «beams (structures)» — это дескриптор, который принят в инженерном тезаурусе, в который кроме того включен еще и термин «beams (radiation)». Например, во французском языке, «еаи (boisson)» — дескриптор в экологическом словаре, в состав которого входит ещ е и дескриптор «еаи (environnement)». В русском тезаурусе могут одновременно присутствовать дескрипторы «замок (крепость)» и «замок (запор)». Если же один из терминов-омографов используется в специализированном тезаурусе, и его зна­ чение понятно пользователю тезауруса, релятор может быть опущен. Однако следует предусмотреть возможность того, что объем тезауруса в будущем может быть расширен, или что станет необходимым взаимодействие с другими словарями, охватывающими другие области. При применении реляторов термины становятся несколько громоздкими, и поскольку некоторые электронные системы испытывают трудности в их применении, то следует избегать их (особенно в ка­ честве дескрипторов) в тех случаях, когда можно найти другой способ устранения неоднозначности. По этой причине, использование многословного термина (как скоро такая многословная форма существует в естественном языке) предпочтительнее, чем использование однословного термина с релятором.ПримерТермин «industrial plants» следует предпочитать термину «plants (facilities)». Послед­ний термин, однако, может быть введен в качестве аскриптора. Аналогично русский термин «органытела» предпочтительнее, чем яорганы (анатомия)». Заключенные в скобки реляторы не должны использоваться для образования инвертированных форм.ПримерНеправильным является включение в тезаурус инвертированных форм «cookery (fish)»и «pens (fountain)». Вместо них следует использовать термины «fish cookery» (рыбные блюда) и яfoun­ tain pens» (авторучки). В последнем примере «fountain» используется для указания типа ручки, а не дляустранения неоднозначности слова «реп». (См. также 7.7 о порядке слов в многословных терминах). До­ пустимым использованием реляторов с термином «реп» в английском языке являют ся термины «pens(enclosures)»загоны и «pens (writing implements)»средства письма. Правильное использование реля­ торов с термином «audition» во французском языке: «audition (physiologic)» и «audition (communication)».В русском языке: «корпус (тело)», • корпус (изделие)», «корпус (армейский)». В случае сокращений и аббревиатур, которые часто являются омографами, релятором должна служить полная форма термина (см. также 6.6.8). Квалификаторы для акронимов и аббревиатур следу­ ет использовать только тогда, когда их значение пользователями тезауруса признается неоднозначным, т.е., когда у этих форм есть еще одно известное значение или в покрываемой тезаурусом области, или общем языковом употреблении. 6.2.3 О пределения Как правило, для уточнения того, как следует использовать дескриптор, не требуется наличия пол­ ного определения. О днако если по какой-то причине необходимо дать определение, то для него должно быть отведено отдельное поле, чтобы нельзя было спутать определение с лексическим примечанием. При каждом определении должен быть указан источник, из которого оно взято.ПримерChiaroscuroDEF The style o f pictorial art in which only the light and shade are represented (OED)въааошадОовайадаиж. стиль жиаапияи ивпаоьхааишй дадыю. саат и пш иШ Ж . П р и м е ч а н и е — «ОЕО» означает Oxford English Dictionary (vr.44v.oed.cofn). Любая подобная аббревиату­ ра. встречающаяся в тезаурусном определении или лексическом примечании, должна быть объяснена во введе­ нии к тезаурусу (см. 13.4). 6.2.4 И с то р и че с ки е с п р а в ки Изменения терминов, возникающие во время обновления тезауруса, могут оказать влияние на эф ф ективность поиска понятий. В таких случаях может помочь использование исторической справки. Историческая справка должна относиться только к одному дескриптору, аскриптору или понятию. Ею следует пользоваться тогда, когда в тезаурус добавляется новый дескриптор или ж е существующий термин претерпел изменения, которые влияют на объем понятия в разные периоды использования тезауруса. Хотя подобную информацию можно включить в лексическое примечание, предпочтительнее создать историческую справку. Историческая справка может фиксировать дату введения термина или предоставлять более сложные рекомендации относительно того, как искать это ж е понятие на предше­ ствующих и последующих этапах. 18
ГОСТ Р 7.0.91— 2015Примеры1 Microwave ovens (микроволновые печи)HN Concept introduced 1985 (Понятие введено в 1985 г.). 2 Notebook computers (ноутбуки) HN Term introduced 1999; p rio r to that use вlaptop computers» (Термин введен в 1999 г.; ранее исполь­ зовался термин «laptop computers»). 6.3 Грамматически© ф о р м ы те р м и н о в 6.3.1 С у щ е с тв и те л ь н ы е и и м е н н ы е сл о в о со ч е та н и я Тезаурусный термин, как правило, представляет собой имя существительное или именное сло­ восочетание. В частности он может быть выражен отглагольным существительным (герундием), (см. 6.3.4). В английском языке (и в других, таких как немецкий, французский и другие германские и роман­ ские язы ки)1* именные словосочетания встречаются в следующих двух формах: a) В форме определительных словосочетаний (включая те. в которых в функции определения вы­ ступает существительное или притяжательная форма существительного2*).ПримерB u rk itt’s lymphomaлимфома Буркиттаcold fusionхолодная сваркаenvironmental lum inosityокружающая освещенностьstone wallsкаменные стеныtropical diseasesтропические болезни. b ) В форме предложных словосочетаний.Примерaccessories after the fact СОУЧасдиШЦ ПО Ф а к т у (кай&ВНШе!hospitals for childrenбвлш ш иы ДДЯ ДйШаЙ. Предлоги придают термину излишнюю длину и неуклюжесть, поэтому по возможности следует избегать их использования, особенно в качестве дескрипторов. Например, термин «carbohydrate me­ tabolism» следует предпочесть термину «metabolism o f carbohydrates». (Впрочем, последний термин все ещ е мог бы быть принят в качестве аскриптора). В некоторых других языках, например в китайском, предложные фразы отсутствуют, но имеются другие типы субстантивных (номинативных) словосочетаний, которые необходимо использовать в об­ суждаемых случаях. 6.3.2 П ри л агател ьн ы е Прилагательные используются в качестве компонентов именных словосочетаний, но при их ис­ пользовании в качество самостоятельного термина они могут стать причиной возникновения поисковых проблем. Так, поиск статьи по «использованию красных огней как сигналов предупреждения о низких мостах» с помощью таких терминов-прилагательных как «красный» и «низкий» может привести к тому, что мы получим информацию о низких сигналах и/или о красных мостах. По этой причине использование прилагательных в качестве терминов тезауруса следует избегать. Такая ж е осторожность необходима и в применении не только прилагательных, но и адъективных суще­ ствительных. например, «краснота» вместо «красный». Исключения могут бы ть сделаны в случаях наличия веских причин, например, в случае использо­ вания тезауруса для индексирования отчетов о медицинских симптомах, коллекций изображений или других нетекстовых единиц, в которых прилагательные, описывающие внешний вид. могут играть очень важную роль.Примеры1 Ddark redтемно-красный.2 Largeобширный.3 Ovalовальный.4 Smoothгладкий. 1* То же самое относится и к славянским языкам, включая русский. 2* Во всех этих языках наиболее типичны такие именные словосочетания, где в функции определения высту­ пают прилагательные, но в этой функции могут использоваться и другие части речи, в частности существительные в косвенных падежах. 19
ГОСТ Р 7.0.91— 2015 6.3.3 Наречия Такие наречия как «очень» или «сильно» не должны использоваться в качестве терминов теза­ уруса. Словосочетания, начинающиеся с наречия, не допускаются в качестве терминов тезауруса, за исключением того случая, когда этому словосочетанию присваивается особое значение.Примеры1 Very high frequency (сверхвысокие частоты).2 Very large scale integration (интеграция сверхвысокого уровня). 6.3.4 Глаголы В английском и русском языках глаголы, представленные в форме инфинитива или причастия, не должны использоваться в качестве отдельных терминов тезауруса. Однако допустимы термины, пред­ ставленные в форме отглагольного существительного (например, «weaving», «broadcasting», «плете­ ние». «вещание»). Действия следует обозначать существительными или отглагольными существитель­ ными. Для некоторых других языков может быть разрешен и инфинитив, но эти рекомендации должны быть сформулированы так. чтобы они не противоречили общепринятым соглашениям по индексирова­ нию.Примеры1 Cookery o r cooking (не «cook». «to cook», «cooked», etc.)готовка пиш и (не «готовитьпиш у»).2 Distillation (не «distil»)йШ Ш Ш П Ш Ш ше ъдиъаштшяяъатьхи3 Swimming (не «swim»)плавание (не «плавать»!. 6.3.5 А р т и кл и 11 6.3.5.1 Опущение артиклей Как правило, следует избегать использования артиклей, предваряющих термины тезауруса. При необходимости следует использовать релятор, помещенный в скобки.Примеры1 Arts, а не «the arts» (искусство).2 State (political entity), а не «the state» (государство). 6.3.5.2 Сохранение артиклей Если предваряющий артикль является неотъемлемой частью имени собственного и необходим в процессе поиска, то он должен быть включен в состав термина тезауруса в прямом порядке. В других случаях артикль должен быть опущен или термин должен быть представлен в инвертированном виде. Если опущение артикля приводит к неоднозначности, то следует добавить релятор. Считается ли ар ­ тикль неотъемлемой частью имени, зависит от языка и от контекста. В следующих примерах языком тезауруса является английский.ПримерEl Nino Le Havre Los Angeles Needles (Isle o f Wight)The Who (rock m usic group) Если при поиске нужно использовать термин как с артиклем, так и без него, должна быть сделана ссылка от аскриптора.ПримерSalvador (country)USEEl SalvadorThe NeedlesUSENeedles (Isle o f Wight)Who. TheUSEThe Who (rock m usic group). 6.4 П р о п и с н ы е б у к в ы , зн аки пр е п и н а н и я и о с о б ы е с и м в о л ы 6.4.1 П р о п и с н ы е б у к в ы В форме представления терминов тезауруса следует быть последовательным. Настоящий стан­ дарт везде предусматривает нижний регистр, за исключением тех заглавных букв, которые необходимы 1) Правила употребления артиклей для русского языка не имеют значения, поскольку в русском языке нет артиклей. 20
ГОСТ Р 7.0.91— 2015 в именах собственных1*. Поскольку компьютерные технологии более не выдвигают требований по ис­ пользованию только верхнего регистра, то следует использовать только нижний регистр с допущением первых заглавных букв. Исключения могут быть сделаны для сокращений, аббревиатур, собственных имен или терминов, которые принято записывать с использованием особого стиля. В этих случаях должен быть использо­ ван тот стиль, который является наиболее распространенным среди предполагаемых пользователей тезауруса.Примеры1 British Airways Pic.2 ActiveX. 3 DNA. 4 NPK fertilizers. 5 pH. 6 Photocopies. 6.4.2 Н о ал ф а ви тн ы е с и м в о л ы Использование знаков пунктуации, диакритических знаков и других специальных символов могут создают проблемы при вводе терминов, а также во время сортировки и обработки при проведении про­ цедур поиска. Кавычки, скобки, деф исы и числовые символы усложняют реализацию процесса поиска. Использование таких символов должно быть минимизировано, особенно в дескрипторах.ПримерыЗамена специальных символов:1 В английском языке:beta raysвместоP-raysdatabasesвместоdata-basesnonfictionвместоnon-fictionresearch and developmentвместоresearch & development.2 Во французском языке: rayon betaвместоra y o n precherche et developpementвместоrecherche & developpement.3 В русском языке: бета-лучивместоР-лучипятипроцентный растворвместо5%-ный раствор, или 5-процентный растворстереоизображениевместоЗР-изображение. Однако, поскольку нельзя полностью избежать использования неалфавитных символов, они должны быть сохранены там, где терминология может быть двусмысленной, грамматически непра­ вильной и неприемлемой с точки зрения сообщества пользователей тезауруса. Особенно в составе аб­ бревиатур. химических названий, имен собственных, товарных знаков или в случае, если эти термины принадлежат к стандартизированным словарям данной сферы. Для тезаурусов на языках, отличных от английского, часто имеют очень большое значение диакритические знаки.Примеры1 В английском языке:2.4- Dbis(tributyltin) oxideBoyle's lawBurkitt's lymphomaX-rays.2 Во французском языке:2.4- D oxyde de bis(tributyletain).3 В русском языке:п-ментила гидропероксидN-метил-о-толуидинметил(2-тиенил)дихлорсиланампер-час БозеЭйнштейна статистикакритерий / 2. В немецком языке с заглавной буквы начинаются все существительные, которые в этой форме и включают в тезаурус. 21
ГОСТ Р 7.0.91— 2015 Дефисы и знаки диакритики следует сохранять в аскрипторах. если они используются в соста­ ве общ епризнанных орфограф ически правильных вариантов с точки зрения языка, используемого в тезаурусе.ПримерыИспользование специальных знаков в аскрипторах:1 В английском языке:non-fictionUSEnonfictionresumesUSEresumes.2 Во французском языке:contre-marcheЕМcontremarchecontre-plaqueЕМcontreplaque.принцип д'Аламберасм.принцип Даламбера2-бутанонсм.метилэтилкетонтимолфталексон Sсм.метиловый синий. По возможности (но не в наименованиях химических веществ, а в других случаях, где они образу­ ют неотъемлемую часть термина) скобки должны употребляться только в реляторах. 6.4.3 И н о я з ы ч н ы е а л ф а ви ты Если в тезаурусе для записи терминов применяют буквы различных алфавитов, то для каждого алфавита должен быть принят свой шрифт, позволяющий однозначно идентифицировать буквы, по на­ чертанию сходные с буквами других алфавитов. В предисловии тезауруса необходимо указать, какой шрифт применяется для каждого алфавита. В русскоязычных тезаурусах для букв русского алфавита целесообразно использовать обычный шрифт, для латинских букв, например. — полужирный шрифт, а для греческих — полужирный с подчеркиванием.ПримерыI P t s s m t б у д е мАвЕКм О рТ Д аш иасдце й у н шАвЕкм ОртГ вечес/ше б ю а ы :А £ £к м £ £I2 Русские буквы:ВВСвоенно-воздушные силы, ВНРВенгерская народнаяреспубликаЛатинские буквы:ВВСB ritish Broadcasting Corporation, ВНРB ritish horsepower. 6.5 Е д и н ств е н н о е и л и м н ож е ств е н н о е ч и с л о 6.5.1 К у л ь ту р н ы е и л и н гв и с т и ч е с к и е ф а кто р ы В естественных языках существуют разные правила, касающиеся использования единственного или множественного числа. В некоторых языковых сообществах, например во французском и немецком языках индексаторы, как правило, используют единственное число, для того чтобы пользователь мог использовать тезаурус так же. как он пользуется обычным словарем. Однако, в английском и испанском языках, выбор числа основывается на том. является ли тот или иной термин формой исчисляемого или неисчисляемого существительного. Принятие такого правила помогает отличать процесс, например «painting (рисование)», который может быть выражен только формой единственного числа, от резуль­ тата этого процесса, в данном случае «paintings (рисунки)». В русскоязычных тезаурусах встречаются оба подхода. Форма термина в каждом языке должна быть основана на принятых в данном языке правилах. Следствием такой практики является то, что в многоязычном тезаурусе термину в единственном числе на французском и немецком языках может соответствовать в других языках эквивалент в форме мно­ жественного числа.Примеры1 fr:maison2 de:Haus3 ел:houses4 es:casas5 ru:дома. 6.5.2 Т рактов ка и с ч и с л я е м ы х с у щ е с т в и т е л ь н ы х П р и м е ч а н и е — Принципы, изложенные в настоящем подпункте, применимы при использовании рус­ ского, английского и испанского языков, а не французского и немецкого. Правила для других языков могут быть выработаны путем изучения практики, широко используемой в тезаурусах на этих языках. 22
ГОСТ Р 7.0.91— 2015 Исчисляемые имена существительные — это наименования подлежащих счету объектов, к кото­ рым применим вопрос «How many? — Сколько?», а не «How much? — Как много?». Их следует обозна­ чать формами множественного числа.ПримерыИсчисляемые существительные:1 documentsдокументы2 penguinsпингвины3 po litica l partiesполитические партии4 windowsокна. Исключением из этого правила являются наименования частей тела, которые обычно обознача­ ются формами единственного числа.ПримерыИсключения:1 digestive systemпищеварительная система2 eyeглаз3 headголова. Другим исключением являются имена живых организмов. Многие виды, например. Escherichia со// или Euonym us fortunoi, в обычном употреблении названия не имеют, и они известны только по их науч­ ным наимеваниям. для обозначения которых принято использовать латинский термин в единственном числе. Чтобы быть последовательными, в тех случаях, когда латинские наименования и названия, при­ нятые в языке тезауруса сосуществуют в одном ряду, использование единственного числа может быть распространено на все объекты этого ряда. Однако использование единственного числа не является строго обязательным, и редакторы тезауруса могут отдать предпочтение множественному числу, на­ пример: «zobrasзебры», «whalesкиты» или «daffodilsнарцисс». Однако, как скоро соглашение принято, оно должно применяться последовательно. Когда контрольный словарь используют для именования музейных предметов, как правило, при­ меняют форму единственного числа терминов. В целом, однако, чаще понятия представляют не от­ дельные объекты, а категории объектов, и использование форм множественного числа является более целесообразным. Один предмет может быть назван «стул», но категорию скорее следует искать под обозначением «стулья». Использование форм множественного числа в дескрипторах в подобных слу­ чаях увеличит устойчивость принятых соглашений, поскольку оно позволяет использовать один и тот же тезаурус и для музейных предметов, и для других типов информационных ресурсов. 6.5.3 Т рактов ка н о и с ч и с л я е м ы х с у щ е с т в и т е л ь н ы х П р и м е ч а н и е — Принципы, изложенные а настоящем подпункте, применимы для русского, английского и испанского языков, но не применимы для французского и немецкого языков. Для других языков наилучшие под­ ходы могут быть выявлены путем изучения общей практики широкого использования тезаурусов на этих языках. Неисчисляемые существительные — это наименования таких понятий, как материалы или веще­ ства. которые отвечают на вопрос «How much? — Как много?», а не «How many? — Сколько?». Их. как правило, обозначают формами единственного числа.ПримерНеисчисляемые существительные:cottonхлопокaluminiumалюминийsteamпар. Однако если обслуживаемое тезаурусом сообщество пользователей рассматривает данное ве­ щество или материал как класс с более чем одним элементом, то этот класс следует обозначать фор­ мой множественного числа.ПримерИсключения:grassesтравыpoisonsядыsteelsстали. Наименования абстрактных понятий, свойств, систем убеждений, научных дисциплин, деятель­ ностей и процессов часто являются неисчисляемыми существительными, и их следует обозначать фор­ мами единственного числа.ПримерыДругие разряды нвисчисляемых существительных:1 Абстрактные понятия: personality: winter; индивидуальность; зима 23
ГОСТ Р 7.0.91— 2015 2 Свойства: brittleness; opacity; solubility; хрупкость; непрозрачность; растворимость 3 Системы убеждений: Catholicism; Shintoism; communism; католицизм; синтоизм; коммунизм4 Деятельности и процессы: cutting; im migration; shrinkage; отделение; иммиграция; сжатие5 Научные дисциплины: astronomy; sociology; астрономия; социология. Однако если рассматриваемое абстрактное понятие трактуется как класс с более чем одним чле­ ном. то этот класс следует обозначать формой множественного числа.Пример — Дополнительные исключения:chemical reactionsXUMUHKKUt геДКШШintelligence tests /ПбСШЬ/ Ш И П Ш Ш аШ Д Ш Я Ш Иphysical sciences(tlU2U4QQtiUS flflu m 6.5.4 С о сущ е ств о в а ни е ф о рм е д и н с тв е н н о го и м н о ж е с тв е н н о го чи сла В любом языке, если формы единственного и множественного числа термина обозначают разные понятия, то обе эти формы должны входить в тезаурус. Различие между ними должно быть выявлено за счет добавления лексических примечаний и. если это возможно, квалифицирующего термина или фразы (релятора).ПримерВ английском языке:wood (material)woods (areas o f woodland)Во французском языке:statistique (science)statistiques (donnees)В русском языке:лес (материал)леса (территории). Следует подчеркнуть, что добавленный релятор не является лексическим примечанием (см. 5.2), а становится неотъемлемой частью термина. Если формы единственного и множественного числа термина обозначают одно и то же понятие и при этом их написание отличается таким образом, что в алфавитном списке их будут разделять не связанные с ними по значению термины, то следует ввести аскриптор. снабженный ссылкой.ПримерВ английском языке:mouse USEmice.Во французском языке:уеихЕМоеН.В русском языке:уш исм.ухо. Если формы единственного и множественного числа обозначают одно и то же понятие и их на­ писание отличается незначительно, обычно обеспечивается ввод только дескриптора. Но может быть добавлен и аскриптор. если предполагается компьютерное обращение к словарю. 6.6 В ы б о р д е с кр и п то р а 6.6.1 О бщ ие полож ения Иногда в одном и том же языке одно и то же понятие может передаваться более чем одним тер­ мином. Если несколько терминов передают одно и то же понятие, то один из них должен быть признан дескриптором, а все другие {см. 8) — аскрипторами. Д ля многоязычного тезауруса эта ситуация описа­ на в разделе 9. Когда существует выбор между синонимическими формами выражения, должны учитываться предпочтения того сообщества, для обслуживания которого тезаурус создавался (чтобы исключить двусмысленности и выражения, которые пользователь может воспринять болезненно). 6.6.2 П р а во пи сан и е Дескрипторами следует признавать наиболее распространенные варианты правильного написа­ ния слова. Если существуют другие варианты написания этого термина, которые являются общ епри­ знанными. то их следует включать в тезаурус в качестве аскрипторов с указанием ссылок от аскрипторов к дескрипторам. 24
ГОСТ Р 7.0.91— 2015Примеры1 В английском языке:RoumaniaUSERomaniaRumaniaUSERomaniaВо французском языке:LithuanieЕМLituanieВ русском языке:риелторсм.риэлтор2 В английском языке:non-fictionUSEnonfictionВо французском языке:co-voiturageЕМcovoiturageВ русском языке:Шри-Ланкасм.Шри Ланка. Правила орфограф ии должны соответствовать практике устоявшихся словарей и глоссариев языка тезауруса. Если между вариантами написания сделан выбор в пользу одного из диалектов (на­ пример. между американским и британским вариантами английского языка), то во введении тезауруса должно бы ть указано, какой из диалектов был выбран (см. 13.4). И это правило следует неукоснительно соблюдать. Однако в именах собственных на законном основании могут допускаться непоследовательности, поскольку их написание должно быть приведено в соответствие с практикой признаваемой владель­ цами этих имен или нормативными источниками, такими как Virtual International Authority File (V IA F )4 Примеры из набора 3. в которых принята британская орфографическая система за исключением имен собственных.ПримерБританская орфографическая система за исключением имен собственныхcolourUFcolor (цвет)defenceUFdefense (оборона)Department o f Defense(департамент правительства США)M inistry o f Defence(департамент правительства СоединенногоКоролевства). Неправильное написание слов в дескрипторах недопустимо. О днако если орфографические ош ибки распространены очень широко, то их включение в состав входов в тезаурус (особенно в элек­ тронный тезаурус) может оказаться целесообразным, и они могут быть введены в ранге аскрипторов.Примеры1 В английском языке:abattoirsUFabatoirs(скотобойни)abbatoirs abattoirs.2 Во французском языке:Mitterrand Francois ЕРMitterand Francois (Франсуа Миттеран).3 В русском языке:антенасантеннаЕльцинсЕльцын. Термины с орф ограф ическими ош ибками могут служить входами в тезаурус только в следующих случаях: a) орфографические ошибки достаточно часто встречаются; b ) не существует опасности установления связи между ошибочным написанием и термином, от­ личным от того дескриптора, с которым эта ош ибка связана ссылкой в тезаурусе. Такие входы должны быть помечены каким-то специальным образом, показывающим, что в дан­ ном случае мы имеем дело с орфограф ической ош ибкой. В качестве одного из таких вариантов может быть замена метки UF меткой MS (означает «misspelling» — орфограф ическая ош ибка), а в русском языке замена ссылки с (синоним! ссылкой о о (орфографическая ошибка). 1> VIAF является совместным проектом нескольких национальных библиотек [7]. VIAF включает более 13 миллионов официально зарегистрированных собственных имен, поддерживается консорциумом OCLC и до­ ступен на сайте http:tfviaf.org/.. 25
ГОСТ Р 7.0.91— 2015 Если неправильно написанные слова вводятся в качестве аскрипторов. то следует принять ре­ шение об исправлении таких орфографически неправильных аскрипторов в печатных и электронных версиях тезауруса, где они ничего не добавляют к пониманию пользователем термина, а использовать их только при поиске в Интернете для интерпретации запроса, предложенного пользователем. 6.6.3 З а и м с т в о в а н н ы е те р м и н ы и и х п е рев о д Заимствованные термины, если они уже вошли в язык, могут использоваться в качестве дескрип­ торов (См. 9.3.3.2 и 9.3.3.3).Примеры1 В английском языке:bouquetsgestalt therapyombudsmen.2 Во французском языке:handballpermafrost pizza.3 В русском языке:букет омбудсменпицца. Иногда заимствованный термин и предполагаемый перевод сосуществуют. Если заимствованный термин более широко распространен, он должен рассматриваться как дескриптор, однако и предлагае­ мый перевод может стать дескриптором, если он уже вошел в язык. Два таких термина следует связы ­ вать взаимными ссылками.Примеры1 В английском языке:coiffeursUSEhairdressers(парикмахеры)hairdressersUFcoiffeursabattoirsUFslaughterhouses (скотобойни)slaughterhousesUSEabattoirs.2 Во французском языке:baladodiffusionEPpodcast(вещание через iPod)podcastEMbaladodiffusion.3 В русском языке:вертолетсгеликоптергеликоптерсмвертолет. 6.6.4 Т рансл и те ра ц ия При транслитерации терминов из языков с другими алфавитами следует использовать утверж­ денные схемы соответствия алфавитных символов и их сочетаний. Во введении к тезаурусу должно быть указано, какая из утвержденных схем применяется в этом тезаурусе. Некоторые заслуживающие внимания схемы можно найти в справочнике [27] и в опубликованных стандартах, перечисленных в библиографии1). См. также п. 12.4, где рассматриваются вопросы автоматического кодирования аль­ тернативных письменностей. 6.6.5 Н е о л о ги зм ы , с л е н г и ж а ргон Вместо быстросменяемых терминов, употребляемых в сленге или жаргоне, на практике может быть полезным использовать термины сленга/жаргона в качестве дескрипторов. Однако часто в ответ на появление новых технологий или развития общественной и политической жизни появляются полезные неологизмы. Они могут быть приняты в качестве терминов тезауруса, если они будут оценены как полезные для поиска информации.Примеры1 В английском языке:carbon trading(торговля квотами на выброс углекислого газа)smart cards(смарт-карты). ’ ) Для русского и других языков с кирилловским алфавитом действуют Г8Т и [91. 26
ГОСТ Р 7.0.91— 20152 Во французском языке:alicamentbaladodiffusion(падкастинг, вещание через iPad)litterisme.3 В русском языке:шестидесятники. Просторечные и жаргонные формы могут быть применены в следующих обстоятельствах. a) Вновь появившееся понятие выражается термином, возникшим в рамках определенной суб­ культуры или социальной группы, и не существует альтернативного общепринятого наименования для этого понятия. Тогда термину на сленге или жаргоне следует придать статус дескриптора.Примеры1 Hippies(хиппи)2 Web feeds(вэб-новости. вэб-каналы). b ) Если жаргонные термины широко используются вместо общ еприняты х терминов и м ногие поль­ зователи считают полезным их использование в качестве входов в тезаурус. В этом случае принятому дескриптору следует обеспечить ссылку на аскриптор из сленга или жаргона.Примеры1 В английском языке:psychiatristsUFshrinks(психиатры)shrinksUSEpsychiatrists.2 Во французском языке:policierЕРтс(полицейский)ШсЕМpolicier3 В русском языке:мобильниксмсот овый телефонсотовый телефонсмобильник. с) Если целевая аудитория отдает явное предпочтение сленгу или жаргону, может быть полезным использование сленга/жаргона в качестве дескрипторов, интерпретируя альтернативные термины как асхрипторы. Такое решение может быть принято в случае, например, предпочитающей сленг молодеж­ ной аудитории. 6.6.6 О б щ е п р и н я ты е н азв ан и я и т о р го в ы е м арки На практике оказывается, что продукт известен по торговой марке. Тогда в качестве дескриптора следует выбрать общепринятое название, а торговую марку следует включить в качестве аскриптора и только в том случае, если считается, что ее наличие облегчит пользователю доступ в тезаурус. Если зарегистрированные товарные знаки снабжены правовой защитой, чтобы избежать юридических про­ блем. к термину следует добавить символ «®».Примеры — 1 soluble coffee UFNescafe® 2 Nescafe® USE soluble coffee(растворимый кофе).3 винчестер см жесткий диск 4 жесткий диск свинчестер. Исключения допустимы, например, когда один универсальный продукт продается под нескольки­ ми конкурирующими торговыми наименованиями и пользователи хотят, чтобы эти разные бренды были разграничены. В этом случае дескриптором для универсального продукта может служить общее имя. а торговые наименования могут использоваться в качестве нижестоящих терминов (см. 8.4).Примерballpoint pens(шариковая ручка)NT Bic pensBiros. 6.6.7 Н а ро д н ы е н азв ан и я и н а у ч н ы е н аи м е но ван и я Если как народное, так и научное название являются представителями одного и того же поня­ тия. то предпочтение должно быть отдано той форме, в пользу которой высказываются пользователи тезауруса. Например, «penguins — пингвины» может быть выбран в качестве дескриптора в общем тезаурусе, а в зоологическом тезаурусе в качестве дескриптора предпочтительнее научный эквивалент, «Sphenisciformes». В таких случаях должны быть использованы взаимные отсылки. 27
ГОСТ Р 7.0.91— 2015 6.6.8 А б б р е в и а ту р ы и с о кра щ е н ия Аббревиатуры и акронимы могут относиться не только к одному понятию и по этой причине быва­ ют неоднозначными. Поэтому полная форма имени должна функционировать как дескриптор, а сокра­ щенная форма — как аскриптор. При этом они должны быть связаны взаимными ссылками.ПримерАкронимы/аббревиатуры не требующие разъяснения:В английском языке:United Nations Environment Programme UPUNEPUNEP USEUnited Nations Environment Programmedirect currentUFDC (direct current)DC (direct current)USEdirect currentnational insuranceUFN1 (national insurance)N1 (national insurance)USEnational insurance.Во французском языке:nouveaux pays industrialsEPNPI (nouveaux pays industrials)NPI (nouveaux pays industrials) EMnouveaux pays industriels.В русском языке:ЧП(чрезвычайное происшествие)смчрезвычайное происшествиечрезвычайное происшествиесЧП (чрезвычайное происшествие). Когда сокращения или аббревиатуры широко известны, однозначны и легко понимаются всеми в пределах охватываемой тезаурусом области, особенно, если их употребление настолько утвердилось в языке, что полная форма термина употребляется очень редко или не употребляется совсем, тогда в виде исключения такие сокращения или аббревиатуры могут использоваться в качестве дескрипторов. Однако и в этом случае полная форма термина и его аббревиатура должны быть связаны взаимными ссылками.ПримерАкронимы/аббревиатуры не требующие разъяснения:В английском языке:UNICEF UFUnited Nations International Children's Emergency FundUnited Nations International Children's Emergency FundUSEUNICEFHIVUFhuman immunodeficiency virushuman immunodeficiency virusUSEHIV.Во французском языке:SIDA EPSyndrome d ’immunoddficience acquiseSyndrome d ’immunodeficience acquiseEMSIDA.В русском языке:ООНсОрганизация Объединенных Наций 28
ГОСТ Р 7.0.91— 2015Организация Объединенных НацийсмООНСПИДссиндром приобретенного иммунодефицитасиндром приобретенного иммунодефицитасмСПИД. 6.6.9 Имена с о б с т в е н н ы е 6.6.9.1 Общие положения Имена собственные часто бывают полезными в тезаурусе, но их подчас приходится исключать из-за того, что существует слишком много кандидатов, и особенно, если их формы контролируются дру­ гими авторитетными списками или наборами правил, подобных Anglo-American cataloguing rules (Англоамериканские правила каталогизации)11 [10]. Имена собственные должны быть включены в тезаурус, если он является единственным средством для проверки точности терминов индексирования. Их вклю­ чение имеет то дополнительное преимущество, что дает возможность установления иерархических или ассоциативных связей (см. раздел. 10) между предметными терминами и соответствующими собствен­ ными именами, например, когда последние являются отдельными представителями первых.Примеры1 mountainsгопыNTBen Nevisd____Sattiaaus.Mount EverestЭверест2 Hockney. David (1937-)Хокни. Д эвид (1937)ВТartistsвхудожникиRTcontemporary artсовременное искусство 6.6.9.2 Географические наименования Названия стран и географических регионов нередко изменяются от языка к языку. Варианты тер­ минов. обозначающих одни те же места, также могут применяться и в пределах одного языкового со­ общества по следующим причинам: a) в обиходном употреблении используются и «разговорный» и «официальный» варианты имени,ПримерRepublic o f KoreaSouth Korea. b) исконная форма имени отличается от обычной формы имени, принятой в языке тезауруса.ПримерLeghorn (Английский тезаурус может включать этот перевод названия итальянскогогорода, носящего местное название «Livorno»).Livorno (В тот же самый тезаурус может быть включено и исконное наименование). c) в стране с двумя официальными языками могут сосуществовать две общепринятые формы.ПримерGand (В Бельгии это французское название города Ghent сосуществует с голландским названием) Gent (В Бельгии это голландское название города Ghent сосуществует с французским названием) Статус дескриптора следует предоставить имени, которое наиболее привычно для большинства пользователей тезауруса. При этом предпочтение следует отдавать нормативным общеупотребитель­ ным. а не разговорным вариантам. Предпочтение должно быть отдано более короткому варианту нор­ мативного общеупотребительного имени. За консультациями по поводу нормативных общеупотреби­ тельных вариантов имени следует обращаться к официальным источникам. Дескрипторы и аскрипторы должны быть связаны взаимными ссылками.ПримерIrelandИрландияUFIrish RepublicсмИрландская РеспубликаEireЭйре 1> Этот набор правил широко использовался во время подготовки данной части настоящего стандарта, од­ нако. существуют планы по его замене новым стандартом, известным как RDA: Resource Description and Access. 29
ГОСТ Р 7.0.91— 2015EireЭйреUSE IrelandсмИрландияIrish RepublicИрландская РеспубликаUSE IrelandсмИрландия. 6.6.9.3 Имена юридических и физических лиц Вариативность имен является распространенным явлением. В том случае, если она не взята под контроль, она может создавать трудности. При включении в тезаурус форма имен должна выбирать­ ся в соответствии с принятыми правилами каталогизации, например, таким как Англо-американские правила каталогизации (Anglo-American cataloguing rules [37]). Следует удостовериться в том. что имя. используемое в качестве дескриптора, является грамматически правильным, актуальным и достаточно полным, и что его нельзя перепутать с названиями других юридических и ф изических лиц. О бщеупотре­ бительные альтернативные формы имени должны получить статус аскриптора.Примеры1 Armstrong. Louis (1901-1971)UFSatchmo (1901-1971)Армстронг, Луис (1901-1971)сСатчмо (1901-1971)2 Berners-Lee. Tim Бернерс-Ли, Тим 3 Otlet, Paul (1868-1944)Отле, Поль (1868-1944)4 Centre national de la danse (France)UFCND (Centre national de la danse)5 Association for Professional Broadcasting Education (U.S.)Association (U.S.) UFBroadcastEducation6 Минобрнауки РоссиисмМинистерство образования и науки Российской Федерации.7 Сложные понятия 7.1 О бщ ие по ло ж ен и я Понятия варьируются от очень простых до очень сложных. На полюсе простых понятий находятся такие понятия, как «серебро» или «люди». В терминах «грузинские серебряные чайники» или «защит­ ники прав человека» представлены уже более сложные понятия. И в последнем из них три понятия объединены в одно более сложное понятие. Сложные понятия очень часто передаются с помощью сложных терминов, которые могут быть морфологически расщеплены на два или более компонента. Одни из этих терминов состоят из несколь­ ких слов, а другие из одного сложного слова. «Биодеградация», например. — это однословный термин, в значении которого представление о приведении в негодность сочетается с представлением о том. что приведение в негодность обусловле­ но живыми организмами. Теоретически это понятие можно представить комбинацией понятий, образу­ ющих цепочку «приведение в негодность ♦ живые организмы». Разделение «биодеградация» на два понятия может показаться громоздким или неприемлемым, однако, когда некое сложное понятие постоянно передается с помощ ью многословного термина, выбор процедуры разделения на более простые понятия становится более легким и понятным. Так. например, понятие «защитники прав человека» можно легко разделить на понятия «права человека + защитники». А понятие «camping holilays» может быть адекватно выражено с помощью «camping + holilays». Для некоторых понятий существует много вариантов подобного синтеза. Например, понятие «управление человеческими ресурсами» может быть выражено с помощью «человеческие ресурсы ♦ управление» или «люди + управление ресурсами» или даже «люди ♦ ресурсы + управление». При многократном выборе редактор тезауруса не сможет избежать принятия трудных и субъек­ тивных решений: следует ли применять комплексное понятие или же опираться на более простые по­ нятия с тем. чтобы сами пользователи создавали их комбинации. Там. где тезаурус допускает много вариантов, решающим является желание сделать так. чтобы все пользователи для выражения д а н ­ ного сложного понятия применяли одну и ту же комбинацию. Быть последовательным становится еще труднее, если понятие может быть разбито более чем на два компонента, как например «управление человеческими ресурсами». Еще одно соображение заключается в том. что введение сложных понятий, представленных как однословным, так и многословным термином, как правило, повышает специфичность. Большая специ- 30
ГОСТ Р 7.0.91— 2015 ф ичность помогает пользователям достичь большей разрешающей способности. Например, если при­ знать «biodegradability — подверженность биодеградации» более узким термином, чем «degradability — подверженность деградации», то релевантные документы становится искать проще, поскольку исключаются ненужные документы о приведении в негодность с помощью химических средств или из-за воздействия ультрафиолетовых лучей. В качестве платы за эту простоту объем тезауруса все увеличивается и увеличивается. Родственные понятия оказываются разделенными, что делает более трудным для пользователя процесс выбора правильного термина. Большинство примеров в разделе 7 базируются на использовании многословных терминов. Од­ нако те же самые соображения касаются и многих сложных понятий, передаваемых однословными терминами. Кроме того, в таких языках, как немецкий, для которого характерно наличие множества сложны х слов, выбор разделения однословных терминов будет гораздо более широко представлен, чем в английском языке, и при этом будут работать те же самые руководящие принципы. 7.2 П ри ро да с о с т а в н ы х те р м и н о в В английском язы ке1) сложные термины состоят более чем из одного слова.Примеры1 Road safetyбезопасность на дорогах2 Thesaurus management softwareпрограмма ведения тезауруса3 Hirds o f preyхищ ные птицы. Отдельные части большинства таких терминов вычленяются следующим образом. a) Ф окус или главное слово, это такой обозначенный существительным компонент, который опре­ деляет общий класс понятий, к которым этот термин может быть отнесен как единое целое.Примеры1 Именной компонент «indexesуказателии в термине «printed indexesпечатныеуказатели»2 Существительное «hospitalsбольницы» в предложном словосочетании «hospitals for childrenбольницы для детей». b ) Различительный признак или модификатор, т.е. один или несколько дополнительны х компонен­ тов. которые служат для сужения области фокусирования понятия, специфицируя тем самым один из его подклассов.Примеры1 Прилагательное «printedпечатный» в термине «printed indexes» — печатные указатели2 Сочетание предлога с существительным «for childrenдля детей» в термине «hospitals for childrenбольницы для детей». Процедура подобного анализа иногда может быть применена к однословному термину, выражен­ ному сложным словом.ПримерТерминФокусДифференциальный признакagroindustry (агроиндустрия)industry (индустрия)agro (префикс, происходящий из «agriculture»)biosecurity (биобезопасность)security (безопасность)Ыо (префикс, происходящий из «biology») 7.3 П роблем а д о п у с т и м о с т и и с п о л ь з о в а н и я с л о ж н ы х п о н я ти й 7.3.1 О б зо р возм ож н остей В качестве простого примера рассмотрим ситуацию, когда такое понятие как «road safety (без­ опасность на дорогах)» могло бы быть представлено с помощью комбинации более простых понятий «road — дорога» и «safety — безопасность». Предполагается, что параллельно с увеличением сложно­ сти растет количество допустимых вариантов представления понятия. Так. понятие «thesaurus manage­ ment software программа ведения тезауруса» может быть представлено как «thesauri — тезаурусы» + ♦ «m anagem ent — управление» ♦ «software — программное обеспечение» или как «thesaurus manage­ m ent — ведение тезауруса» + «software — программное обеспечение». 1> Равно как и в других языках. 31
ГОСТ Р 7.0.91— 2015 Необходимо рассмотреть следующие пять основных способов обращения с предлагаемыми сложными терминами. a) Д опустить использование сложных понятий, манипулируя этими образованиями как единым дескриптором.Примеры1 Camping holidaysот дых в кемпинге2 Road safetyбезопасность на дорогах3 Thesaurus management softwareпрограмма ведения тезауруса. b ) Д опустить использование таких понятий, представляя их комбинацией двух или более тер­ минов. В этом случае при вводе аскриптора для обозначения целостного понятия следует снабжать его указанием на соответствующую комбинацию более простых дескрипторов. Эту возможность часто трактуют как «расщепление» понятия.Примеры1 Camping holidaysUSEcamping + holidays2 Thesaurus management softwareUSEthesaurus management * software3 Программы ведения тезаурусасмведение тезауруса + программы. с) Допустить понятие в качестве кандидата с пересмотром этого решения по истечении испытательного срока. d ) Отклонить сложное понятие, если оно слишком редко употребляется, является нерелевантным или неуместным. e ) Исключить прямое включение понятия, но сохранить более широкое (вышестоящее) понятие, и разрешить использование аскриптора. связанного с вышестоящим дескриптором.Примеры1 Road safetyUSEsafety2 Thesaurus management softwareUSEsoftware3 Безопасность на дорогахсмбезопасность4 Программы ведения тезаурусасмпрограммы. 7.3.2 М атериал д л я ра зм ы ш л е н и я Принятие разрешения об использования термина имеет сложный и субъективный характер. При принятии решения отчасти можно руководствоваться анализом файлов журнала поисковых транзак­ ций. к которым обеспечен доступ (см. 13.1.3.3 и 13.2.2). Разработчик тезауруса должен соблюдать ба­ ланс преимуществ в поисковых ситуациях, возникновение которых можно предвидеть. При этом следу­ ет уделять внимание факторам, которые в порядке их приоритетности изложены ниже. a ) Частота использования. Первоочередному рассмотрению должны быть подвергнуты относи­ тельно сложные понятия с правами кандидата в дескрипторы в случае, если их часто ищут или если их значение для сообщества пользователей возрастает, особенно если термин, представляющий это понятие, широко используется и понятен аудитории. Обычно в таком случае используется вариант а) из 7.3.1. но также допустимы и варианты Ь) и с). b ) Степень точности. Если предстоит индексировать большой объем релевантных документов, то важным может оказаться решение о разграничении сложных понятий или набора близких понятий. Если в коллекции документов встречается термин «road safety (безопасность на дорогах)», то набор документов может затрагивать и понятия «rail safety (безопасность железнодорожного транспорта)» и/или более общее понятие «transport safety (транспортная безопасность)», а также и понятия «fire safety (пожарная безопасность)» и «safety in the home (безопасность в быту)». Возможно, многие поль­ зователи захотят уметь различать эти разные аспекты безопасности. За счет включения в тезаурус всех этих терминов достигается более высокий уровень специфичности (конкретности), позволяющий про­ водить как индексирование, так и поиск с большей точностью. c) Неполнота поиска как результат множественности вариантов поиска. Обеспечение доступа к набору близкородственных дескрипторов затрудняет выбор вариантов. Например, если в тезаурусе присутствуют одновременно все термины: «safety», «transport safety», «passenger safety», «pedestrian safety», «vehicle safety», а также «road safety» («безопасность», «безопасность на транспорте», «без­ опасность пассажиров», «безопасность пешеходов», «безопасность автомобиля», а также «безопас­ ность дорожного движения»), то. чтобы быть уверенным, что найдены все нужные материалы, при по­ иске придется проверить все эти варианты (а также комбинации термина «safety» с такими терминами, как «roads», «vehicles», «cars», «road traffic»). 32
ГОСТ Р 7.0.91— 2015 Если общ ее количество документов по безопасности (safety) невелико, то может оказаться, что поиск был бы проще и эффективнее, если бы ни один из сложных терминов не был допущен в качестве дескриптора. Тогда единственной поисковой возможностью был бы выбор посткоординированного по­ искового предписания «roads + safety» («дороги ♦ безопасность)». d) Сложные термины, в которых один фокус характеризуется более чем по одному диф ференци­ альному признаку. В предыдущих примерах были использованы такие относительно простые термины, в которых ф окус «безопасность» квалифицировался только по одному диф ф еренциальному признаку, например «транспорт». Большая сложность возникает с такими понятиями, как «транспортное сред­ ство пожарной безопасности», в котором основное значение (фокус) квалифицируется одновременно по двум диф ференциальным признакам. Использование таких терминов ведет к дальнейшему умноже­ нию количества вариантов и мешает проведению простого поиска, поэтому их следует избегать. Напри­ мер. сочетание терминов «транспортное средство» + «пожарная безопасность» адекватно отражает необходимое понятие и не создает путаницы. e) Ожидания предполагаемых пользователей. Такой термин, как «pre-coordinate indexing — предкоординатное индексирование» мог бы быть приемлемым и полезным в тезаурусе, ориентированном на специалистов в области информационного поиска, но если тезаурус ориентирован на более широ­ кую аудиторию, использование этого термина может вызвать недоумение. В последнем случае лучше не разделять этот термин на термины «pre-coordination — предкоординация» ♦ «indexing — индексиро­ вание». а выбрать вариант с), создав входные термины к более широкому термину «индексирование» (см. 8.4). 0 Предотвращение неоднозначности терминов. Иногда включение сложного понятия необходимо для того, чтобы избежать неоднозначности, возникающей в том случае, если какой-либо компонент этих понятий допускает различные способы комбинирования при употреблении в своих разных значе­ ниях. Например, комбинация терминов «libranes (библиотеки)» и «science (наука)» могут использовать­ ся для формирования и термина «library science (библиотечная наука)», и термина «science libraries (научные библиотеки)». Во избежание получения в качестве результата поиска ненужных фрагментов и поискового шума, одно или оба эти сложные понятия могут бы ть признаны дескрипторами. д) Осложнения, связанные с многоязычностью (см. раздел 9). В случае многоязычных тезаурусов, присущ ие какому-либо из языков ограничения или особые потребности могут оказывать влияние на включение или исключение сложного понятия во всех языках тезауруса. h) Ожидаемая поисковая среда. Если программное обеспечение поиска предлагает сложные функции, такие как кластеризация результатов поиска, адаптация к интересам отдельного пользова­ теля или сообщества пользователей это может повлиять на уровень необходимой для тезауруса спец­ ифичности (конкретности). Этот фактор должен быть уравновешен допущением того, что программное обеспечение и другие элементы среды в будущем могут измениться. 7.3.3 О б сто яте л ьств а , ко т о р ы е с п о с о б с т в у ю т р а сщ е пл е н ию с л о ж н ы х п о н я ти й Сложные понятия подлежат разделению, если складываются следующие условия: a) разделение допускается в случае весьма специф ичных понятий, не принадлежащих к цен­ тральной части, сердцевине предметного охвата тезауруса. О днако включение в тезаурус большого числа таких периферийных терминов увеличивает общий объем и сложность словаря, не внося суще­ ственного улучшения поисковых характеристик; b ) если предполагается, что предлагаемый термин годится д ля индексирования л иш ь весьма не­ значительного количества документов, то вряд ли стоит присваивать этому термину статус дескрипто­ ра, а следует реализовать вариант разделение понятия; c) сложное понятие следует разделить, если фокус понятия охарактеризован с помощью более чем одного дифференциального признака, положенного в основу классификации понятий. Например, термин «underwater cine cameras» должен быть разделен на термины «underwater cameras» и «cine cameras»; d) комплексное понятие принято разделить, если фокус этого понятия является свойством, ча­ стью или компонентом диф ференциального признака.Примеры1 A ircraft enginesдвигатели самолетов,2 Hospital floorsбольничные отделения,3 Instrum ent reliabilityнадежность инструмента,4 Soil acidityкислотность почвы. 33
ГОСТ Р 7.0.91— 2015 Допускаются и исключения для случаев, когда мы имеем дело с понятием, своеобразие которо­ го выявляется из четкого определения этого понятия, например, как в случае понятия «температура тела». Очевидно, что ссылка на температуру тела в корне отличается от ссылки на температуру других неодушевленных предметов или веществ, обсуждаемых в том же документе данной коллекции. 7.3.4 О б сто ятел ьств а , ко т о р ы е п р е п я тс т в у ю т р а сщ е пл е н ию с л о ж н о го по ня ти я Сложные понятия не подлежат разделению, если складываются следующие условия, а) Термин, служащий для выражения какого-либо понятия привычен в повседневном использова­ нии или в области, охватываемой тезаурусом, так что дробление этого термина затруднило бы процесс понимания.Примеры1 Data processingобработка данных2 Gross domestic productвнутренний валовой продукт. b ) Разделение понятия на составляющ ие привело бы к утрате смысла, или к двусмысленности.Примеры1 В английском языке:plant foodрастительная пища(«food» * «plants» может означать и ярастения как еда», и япродукты питаниядля фабрик»),2 Во французском языке:marque de voitureмарки автомобилей (вmarque» * яvoiture» может означать и «марка автомобиля», и кавтомобиль как маркапрестижа»).societe de construction(яsociete» + «construction» может означать и я societe» для яconstruction»строительнаяфирма, и «construction» для яsociete»устройство общества).2 В дуссйоад яаше*пиша ж и м ш ш(ш ш ш * шишпшаж. нажат означать и шиюлАпа. ш и ш и ш ь. и нтиаашы&и длятиши!* c) Понятие обозначается дескриптором, являющимся или именем собственным, или включает в свой состав имя собственное.Примеры1 Boolean logicбулева логика2 United NationsОрганизация Объединенных Наций d ) Дифференциальный признак в рассматриваемом термине утрачивает свой первоначальный смысл.Примеры1 В английском языке:lawn tennisтеннис, не ягазонный теннис»deck chairsшезлонги, не япалубные кресла»trade windsпассаты, не «торговые ветра».2 Во французском языке:pistolet a temperatureбесконтактный измеритель температурыmaison mereголовная компания, не яматеринский дом»police d'assuranceстраховой полис, не «страховая полиция».3 В русском языке:черный ящ ик(система со скрытой структурой)Большой взрыв(гипотеза происхождения Вселенной)белый шум(шум с равномерным спектральным распределением).в ) Понятие представлено термином, характеризующий диф ференциальный признак которого по­ строен на метафорическом подобии с некоторым посторонним предметом или событием.Примеры1 Tree structures (древовидные структуры).2 Wing nuts (гайки-барашки). 34
ГОСТ Р 7.0.91— 2015 0 Если слова, входящие в состав имеющего терминологическое употребление словосочетания, рассматривать по отдельности, обозначают такие понятия, которые не имеют никакой связи с поняти­ ем. обозначенным словосочетанием, включающим их в свой состав. В этих случаях было бы неверным индексировать документы, содержащие термин-слоеосочетание. с помощью подобных терминов-ча­ стей.Примеры1 В английском языке:fire escapesпожарные лест ницы (обсуждение пожарных лестниц может ничего не говорить о«firesогонь, пожары» или об кescapingпобег, бегство»)swimming poolsплавательные бассейны (обсуждение плавательных бассейнов можетсодержать мало информации о плавании).2 Во французском языке:etablissement de santeучреждение здравоохранения (обсуждение учреждений здравоохраненияможет содержать мало информации о «santeздоровье»)classe de neige (обсуждение «classe de neige» может содержать мало информации о «neigeснег»).3 В русском языке:лазерный диск (обсуждение лазерных дисков может содержать мало информации о лазерах)настольная лампа (обсуждение настольных ламп не имеет отношения к сведениям о столах). д) Понятие представлено термином, фокус которого имеет два разных смысла в случаях присут­ ствия и отсутствия дифференцирующего признака.Примерartificial flowers (искусственные цветы)искусственные цветы не являют ся цветами, но. на-пример, в тезаурусе по дизайну интерьера это понятие вполне может быть подведено под класс «цветы (элемент декора)».chocolate eggs (шоколадные яйца)было бы ошибочным использовать термин «яйца»для индексирования текстов, в которых идет речь ошоколадных яйцах, т. к. эти «яйца»вид кондитер­ских изделий, а не яиц). 7.4 С п о с о б ы ра сщ е пле ния с л о ж н ы х п о н я ти й В некоторых простых случаях, например, в случае термина «road safety», обозначенное с помо­ щью этого многословного термина понятие может быть адекватно выражено и с помощ ью комбинации отдельных входящих в состав этого термина слов «roads» + «safety». Обоснованием для того, чтобы поступать в рамках отдельного тезауруса подобным образом, может служить то, что любой документ, касающийся «road safety», содержит сведения, релевантные при поиске сведений, касающихся как тер­ мина «road», так и термина «safety». Человек, ищущий информацию о дорогах, сочтет релевантной для своего запроса статью о безопасности на дорогах. Если понятие разделено, то его составляющие могут быть обозначены такими дескрипторами, которые не полностью совпадают со словами, входящими в состав расщепляемого многословного тер­ мина. Чтобы приспособить слова, входящие в состав многословного термина, для обозначения нужных понятий, их приходится модифицировать. Например, «rail safety — безопасность на железных дорогах», не должно быть разделено на «rails — рельсы» + «safety — безопасность», но должно быть выражено как «railways — железные дороги» + «safety — безопасность». Для термина «human resources — чело­ веческие ресурсы» комбинация «people — люди» ♦ «resources — ресурсы» вероятно более приемлема чем «humans — человеческий» ♦ «resources — ресурсы». Для сложных понятий, которые не заслуживают присвоения им статуса единого дескриптора, но при этом пользователи тезауруса, скорее всего, будут заинтересованы в их поиске, следует предусмо­ треть в тезаурусе записи следующего вида (см. раздел 8.5).Примерrail safetyбезопасность на железных дорогахUSE railwaysсмжелезные дорогиsafety + безопасность 35
ГОСТ Р 7.0.91— 2015 7.5 С охранение ко м п о н е н то в по ня ти я 7.5.1 О бщ ие в о п р о с ы В случае если составной термин принят в качестве дескриптора, следует рассмотреть вопрос о целесообразности включения в тезаурус в качестве дескрипторов и компонентов этого термина, если они ещ е не были ранее включены в тезаурус. Например, если мы принимаем дескриптор «road safe­ ty — безопасность на дорогах», то в тезаурус обычно включают дескрипторы «roads — дороги» и «safe­ ty — безопасность». При этом последний термин следует признать вышестоящим дескриптором по отношению к дескриптору «road safety — безопасность на дорогах», а дескриптор «roads — дороги» ассоциативно связанным с этим сложным термином (см. 10.3). 7.5.2 Ч асти и ко м п о н е н ты Путаница может возникнуть, когда в качестве диф ференциального признака составного термина использует название машины или какого-либо другого сложного агрегата, а фокус термина обозначает составную часть. Например, если «aircraft engines — двигатели» разделяется на «aircraft — самолет» и «engines — двигатели», при поиске no «aircraft — самолет», рассматриваемом как отдельный термин, выданы будут записи обо всех деталях воздушных судов наряду с документами о воздушных судах в целом. Для некоторых собраний документов это может оказаться приемлемым, но для других это приве­ дет к перегрузке термина «самолет», и исчезнет возможность изолированного рассмотрения докумен­ тов. в которых воздушные суда рассматриваются как единое целое. Одним из возможных выходов из такой ситуации является создание дескриптора «aircraft com ponents — компоненты самолетов», кото­ рый можно использовать в сочетании с дескрипторами «engines — двигатели», «instrumentation — при­ боры». «under-carriages — шасси» или названиями любого другого компонента воздушного судна. 7.6 П о с л е д о в а те л ьн о с ть в тр а кто в ке с л о ж н ы х п о н я ти й Последовательность в разработке тезауруса всегда полезна и ведет к последовательности в прак­ тике применения. Однако, в случае установления целесообразности включения в тезаурус сложных понятий полной последовательности достичь трудно, и она не всегда необходима. Присутствие непо­ следовательностей неизбежно, поскольку центральным областям тезауруса специфичность требуется в большей степени, чем его периферийным областям. Такие непоследовательности не оказывают не­ гативного влияния на процесс информационного поиска, и ими можно пренебречь, если имеется доста­ точно прозрачных и полезных входов в тезаурус. Последовательные правила оказываются полезными при редактировании тезауруса. Например, отдельному человеку трудно судить о необходимом уровне специфичности (конкретности), когда тезау­ рус является общим для нескольких организаций, которые используют его при работе с отличающими­ ся друг от друга коллекциями документов и с разными группами пользователей. Аналогичным образом, наличие общ его руководства необходимо, если составление тезаурусов является сетевым проектом, в котором задействованы сотни участников из разных стран. Для достижения согласованности следует создавать набор критериев, соответствующих пред­ метной области, примером которого может служить проект Art & Architecture Thesaurus (26), где пред­ ставлен набор правил разделения составных терминов с особым вниманием к потребностям каталоги­ зации единиц хранения в музеях и галереях. Одним из таких правил является разделение составного термина, если различительным признаком является стиль или название периода создания, вследствие которого понятие «барочная позолота» будет представлено как сочетание «барокко» ♦ «позолота». 7.7 П о р яд о к с л о в в м н о го с л о в н ы х тер м и н а х В дескрипторах, являющихся либо адъективными, либо предложными именными словосочетани­ ями. должен быть сохранен естественный порядок слов. Термины не должны подвергаться инвертиро­ ванию. Инвертированная форма предложных словосочетаний может быть включена в тезаурус, но в качестве аскриптора. Это особенно полезно, если тезаурус используется в печатной форме, но может не потребоваться для электронного тезауруса, в котором возможен поиск по любому составному эле­ менту входящего в состав тезауруса термина.Примеры1 Matter, states o fUSEstates o f matterдела, состояниесмсостояние дел 36
ГОСТ Р 7.0.91— 2015 2 Prey, birds o fUSEbirds o f preyптицы, хищ ныесмхищ ные птицы. В адъективных словосочетаниях (например, «brown bread — черный хлеб» или «double beds — двуспальные кровати») инвертирование вряд ли необходимо, поскольку существительное, являющееся ф окусом адъективных словосочетаний, обычно входит в состав тезауруса в качестве вышестоящего дескриптора (см. 10.2). Статья вышестоящего термина (например, «bread — хлеб» или «beds — крова­ ти») является входом, по которому могут быть найдены все нижестоящие термины.8 Отношения эквивалентности в одноязычном контексте 8.1 О бщ ие по ло ж ен и я Отношения эквивалентности — это отношения между дескриптором и соответствующим ему аскриптором(ами) в пределах одного и того же естественного языка. Как продемонстрировано в модели данных в разделе 15. это скорее отношения между терминами, чем отношения между понятиями. П р и м е ч а н и е — Отношения эквивалентности, которые связывают между собой термины из разных есте­ ственных языков, которые обозначают одно и то же понятие и которые часто получают название «межъязыковая эквивалентность», описаны в разделе 9. Отношение эквивалентности, устанавливаемое между дескрипторами и аскрипторами. является взаимообратным отношением. И эту взаимную (обратную) связь обозначают ссылками, приведенными ниже. USE предшествует дескриптору; UF (use for или used for) предшествует аскриптору1).ПримерВ английском языке:greenhouses(теплицы)UFglasshousesglasshousesUSEgreenhousesВо французском языке:biodiversite(биоразнообразие)ЕРdiversit6 biologiquediversite biologiqueEMbiodiversiteS BYfXKQM языке.ваашш£_____теплинытеплицысмпарники. Эквивалентность устанавливается в следующих случаях: a) термины являются синонимами (см. 8.2); b ) термины являются квази-синонимам и (см. 8.3); c) термин считается излишне специфичным (детализированным) и его представляют с помощью другого термина с более широким значением (см. п. 8.4); d) термин считается излишне специфичным и представляется с помощью комбинации двух или более терминов (этот случай известен под названием «compound equivalence — составная эквивалент­ ность») (см. 8.5). 8.2 С и н о н и м ы В практической работе встречаются синонимы разных типов. Следующий ниже список указывает наиболее типичные виды синонимов. Здесь указаны обозначения связи аскриптора с дескриптором только для англоязычных тезаурусов. Соот­ ветствующие обозначения для других языков см. в таблице 2 настоящ его стандарта, а также в примерах данного пункта. 37
ГОСТ Р 7.0.91— 2015 а ) Термины, происходящие из разных языков.ПримерВ английском языке:freedom; liberty(свобода)sweat: perspiration(пот).Во французском языке:marketing; mercatique(маркетинг)lobby; groupe de pression(лобби).В русском языкеменеджмент, организационное управлениелингвистика, языкознание. Ь) Общепринятые и научные названия.ПримерВ английском языке:baking soda; sodium bicarbonate(сода пищевая)rock roses; Cistus(каменная роза, ладанник).Во французском языке:aspirine; acide acetylsalicylique(аспирин)ail; Allium sativum(чеснок). fl иаивш языке.пишаааа eastа. ишшш дцДвадаайааш асдцдил. аиелшпйалиишк2йая,кислша. c) Общепринятые названия и торговые марки.Примерvacuum flasks; Thermos® flasks; Thermos® bottlesжесткий диск. Винчестер. d ) Варианты названия для вновь возникающих понятий.Примерhovercraft; air cushion vehicleslaptop computers; notebook computersховеркрафт; судно на воздушной подушкепереносные компьютеры: наколенные компьютеры: ноутбуки. е ) Недавно возникшие или предпочтительные термины в сравнении с устаревшими или вышедши­ ми из употребления терминами.Примерdeveloping countries; underdeveloped countriesradio; wirelessразвивающиеся страны; неразвитые странычахотка; туберкулез. 0 Варианты написания: в том числе варианты написания основ слов, инверсия порядка слов и неправильные формы множественного числа. Возможно, полезным было бы включение в число вари­ антов написания также некоторых типичных орфограф ических ошибок (см. 6.6.2).ПримерВ английском языке:geese; goose(гуси; гусь)groundwater; ground-water; ground water(грунтовые воды)paediatrics; pediatrics(педиатрия)radiation, ionizing; ionizing radiation; ionising radiation(ионизирующая радиация)Romania; Rumania; Roumania(Румыния)Во французском языке:clef; с!ё(ключ) 38
ГОСТ Р 7.0.91— 2015Lithuania: Lituanie(Литва)nenuphar, nenufar(кувшинка)bioenergie. bio-energie(биоэнергия)oeil. yeux(глаз; глаза)В и к с к м языке.ухо; уш и цскгсс/пас.' иш ипааSmsatDamaoSaaai. Dsam&us. t ? Апшйев: Оалшйей юго-восток: юговосток. д) Термины, восходящие к различным культурным традициям, которые обслуживаются общим языком.ПримерВ английском языке:flats; apartments(квартиры)lifts; elevators(лифты).Во французском языке:mitaine (fr-CA); m oufle (fr-FR)(рукавица)jo u rn a l de classe (fr-BE); agenda scolaire (fr-FR)(школьный дневник).В русском языке: изба; хатаподъезд; параднаяалгоритм: алгорифм. h) Аббревиатуры и акронимы или их полные наименования.ПримерFAO; Food and Agriculture Organizationpvc; polyvinyl chlorideПВХ; поливинилхлоридООН; Организация Объединенных Нацийвуз; высшее учебное заведение. i) Общеупотребительные названия или сленг и жаргон.ПримерВ английском языке:psychiatrists; shrinks(психиатры)soluble coffee; instant coffee(растворимый кофе).Во французском языке:policier; flic(полицейские)cafe soluble; cafe instantanne(растворимый кофе).В bvcckqm языке.елайаааталы ш пи к. Дешатшазиекии хззяшплыи йиек. йиекета. В этих случаях выбор дескрипторов определяется потребностями подавляющего большинства пользователей и проводится с учетом рекомендаций, изложенных в 6.4 и 6.6. Чтобы обеспечить пред­ сказуемость. эти критерии должны применяться последовательно на всех этапах создания тезауруса. Если было принято решение, что в качестве дескрипторов следует выбирать общеупотребительные, а не научные названия, то такой выбор должен проводиться последовательно за исключением лишь тех случаев, когда соответствующих общеупотребительных названий в языке просто не существует. Аналогичным образом, должны быть приняты и последовательно проведены соглашения, касающиеся орфографии. Соглашения и критерии, касающиеся редакторских правил, должны быть приведены во введении к тезаурусу (см. 13.4). В качестве меток, отличных от UF (см), допускаются указания на то. какой тип эквивалентности превалирует в отнош ениях между членами пары терминов. А именно, в ка­ честве таких меток иногда используются (в английском языке) следующие символы: SP (SPelling variant) — вариант написания. MS (M isspelling) — орфограф ическая ошибка (см. 6.6.2). 39
ГОСТ Р 7.0.91— 2015 А В (Abbreviation) — сокращение. FT (Full form o f the Term) — полная форма термина. Для того чтобы распространить этот принцип и на все случаи, описанные в пунктах 8.3 и 8.4. не­ обходимо добавить описание дополнительных меток. Однако, адаптация должна проводиться лиш ь с очень большой осторожностью (см. 10.4). Во введение к тезаурусу должна быть помещена информация о нестандартных метках (см. 13.4). 8.3 К в а з и с и н о н и м ы Квазисинонимы часто занимают разные точки континуума значений и могут оказаться даже анто­ нимами.ПримерыПротивоположности, трактуемые как квазисинонимы:1 consistency, inconsistencywetness, dryness. 2 состоятельность, несостоятельностьсырость, сухость. Во второй строке приводимого выше примера мы находим тезаурусное понятие «количество вла­ ги в объекте или материале», которое может быть выражено в терминах, говорящих либо о влажности, либо о сухости. Выбор обозначения одного из этих аспектов в качестве дескриптора, а другого в каче­ стве аскриптора носит произвольный характер. Но существуют и такие случаи, когда понятия настолько тесно связаны, что представляется оче­ видным. что обсуждение одного из этих двух понятий заинтересует и пользователей, занятых поиском парного понятия.ПримерБлизкие понятия, трактуемые как квазисинонимы:bushes, shrubsкусты, зарослиmallets, hammersмолотки, молоты Диапазон отождествления квазисинонимов в некоторой степени зависит от предметной области тезауруса. В тезаурусе, специализирующем на швейном производстве, термины «перчатки» и «вареж­ ки» следует признать отдельными дескрипторами. В то же время в более широком тезаурусе текстиль­ ной отрасли эти два термина могут трактоваться как квазисинонимы. Принятие решения должно осно­ вываться на желаемой степени точности поиска. 8.4 В кл ю че н и е с п е ц и а л ь н о й те р м и н о л о ги и в со ста в в ы ш е с то я щ е го по няти я Иногда целесообразно объединять в рамках множества эквивалентов как название класса, так и названия членов этого класса, выбрав при этом в качестве дескриптора более широкий термин, стоя­ щий в иерархии выше.ПримерrockкаменьUFbasaltсбазальтgraniteгранитslateсланец etc.и т. д.basaltUSErockбазальтсмкаменьgranite USErockгранитсмкаменьslateUSEгоскроксланецсмкамень Такой технический прием иногда используют для уменьшения количества дескрипторов в тезау­ русе. Его применение ограничивает точность, которая может быть достигнута в процессах индексиро­ вания и поиска, и обеспечивает преимущество лиш ь в том случае, когда в индексируемой коллекции содержится очень мало информации по рассматриваемой тематике. Наличие аскрипторов создает д о ­ полнительные точки входа в систему, чтобы обеспечить пользователю доступ к нужной информации. Однако, подобное «поглощение» нижестоящих понятий вышестоящими не следует использовать при обилии информации по заданной теме; необходимость достижения большой степени точности поиска требует аккуратности указания понятий. 8.5 П ре дставл ен и е с л о ж н ы х п о н я ти й с п о м о щ ь ю сочетан и я те р м и н о в Если многословный термин оказывается непригодным для роли дескриптора, и в то же время мо­ жет быть востребован некоторыми пользователями, то его разрешается представить в виде комбина- 40
ГОСТ Р 7.0.91— 2015 ции двух или более дескрипторов (это называют составной эквивалентностью [см. 7.3.1. перечисление b)J. В тезаурус могут быть введены словарные статьи следующего типа:ПримерПредставление сложных понятий:coal miningдобыча угляUSEcoalC Mуголь*mining*добыча полезных ископаемыхferromagnetic filmsферромагнитная пленкаUSEferromagnetic materialsC Mферромагнитные материалы*films*пленка. При этом следует предусмотреть обратные статьи следующего типа:ПримерПредставление компонентов понятий:coalугольUF*coal miningс м *добыча угляm iningдобыча полезных ископаемыхUF+coa lm in in gс м *добыча угля. Трехчленные отношения признаются сложными, а разграничение меток «USE» и «+» введено только для облегчения чтения. В функциональном плане отношения между «соаЬ и «c oa lm in in g» иден­ тичны отношениям между «mining» и «coal m ining» в обоих направлениях. Гипотетически некоторые термины могли бы быть представлены в тезаурусе комбинаций дескрип­ торов. связанных отношением ИЛИ. а не И (см. примеры ниже). Но эту ситуацию следует рассматривать как случай омографии. Связей ИЛИ в комбинациях дескрипторов не следует допускать, вместо этого следует формировать тезаурусные статьи, в которых будет указан выбор определенной альтернативы значения.ПримерПрактика, которую следует избегать:В английском языке:pitchUSEaudio frequency(частота звука)ORgradient(наклон)Во французском языке:tonЕМnuance de couleur(оттенок цвета)OUtonalite (musique)(тональность)В русском языке:тон смоттенок цветаит__ тшкальшй.жук. О днако этот тип комбинирования понятий следует избегать, и вместо этого вводить пояснения, которые определяют выбор одного из альтернативных значений термина.ПримерРазъяснение альтернативного значения термина:В английском языке:pitch (sound)высота (звук)USE audio frequencyсмчастота звукаpitch (steepness)крутизна (наклон)USE gradientсмуклонВо французском языке:ton (couleur)тон (цвет)EM nuance de couleurсмоттенок цветаton (musique)тон (музыка)EM tonalite (musique):смтональностьВ русском языке:высота (звук) см____ частота звука тон (звук) сммузыкальный звуктон (цвет) смоттенок цвета. 41
ГОСТ Р 7.0.91— 20159 Межъязыковая эквивалентность Раздел 9 не включен в настоящий стандарт, поскольку вопросы разработки многоязычных тезау­ русов рассмотрены в И Л .10 Отношения понятий 10.1 В ведонио Кроме отношения эквивалентности имеется много других типов отношений, которые могут быть представлены в тезаурусе. Если отношение эквивалентности в одноязычном тезаурусе действует толь­ ко между дескрипторами и аскрипторами. то отношения, устанавливаемые в настоящем разделе, д е й ­ ствуют между понятиями (см. также модель данных в разделе 15). Такие отношения вводятся в тезаурус только при условии, что они парадигматические, т. е. имеют силу для всего разнообразия контекстов. П р и м е ч а н и е — Отношения между понятиями трудно отобразить, поскольку понятия существуют только в мыслях, и потому обычный метод состоит в том. чтобы показывать такие отношения как применяемые к де­ скрипторам. представляющим соответствующие понятия. Равным образом метки ВТ. NT. RT. которые отсыпают к вышестоящим (более широким), нижестоящим (более узким) и ассоциативным терминам соответственно, могут рассматриваться как отсылающие к более широким, более узким и ассоциативным понятиям. 10.2 И ерархическое отнош ение 10.2.1 О бщ ие полож ения Иерархическое отношение устанавливается между двумя понятиями, если предмет одного поня­ тия полностью включен в предмет другого понятия. Это отношение формируется в виде шкалы уровней иерархии, где вышестоящее понятие представляет собой род (класс) или целое, а подчиненное поня­ тие является членом, видом или частью вышестоящего. Соответственно отношения обозначают следующими метками, которые пишутся в теэаурусных статьях в виде префикса к вышестоящему или нижестоящему дескриптору. В английском языке: ВТ (broader term ) — префикс к вышестоящему термину. NT (narrower term ) — преф икс к нижестоящему термину. В русском языке: д (выше) — префикс к вышестоящему термину н (ниже) — префикс к нижестоящему термину.1)ПримерanimalsживотныеNTmammalsн______ млекопитающиеmammalsмлекопитающиеВТanimalsв______ животные. Иерархические отношения могут быть одного из трех типов: a ) родовидовое отношение; b ) отнош ение целое — часть (партитивное); c) отношение множество — элемент (отношение членства). Каждое из этих отношений выстраивает иерархии, которые подлежат проверке через обращение к соответствующим типам понятий, например, перечисленным в п. 5.1.2. Каждое подчиненное понятие должно принадлежать к той же категории, что и его вышестоящее понятие, т. е. и широкий, и узкий оба термина должны представлять либо вещь, либо действие, либо свойство и т. д. (см. дополнительно фасетный анализ в разделе 11).Примерa) «металлы» (класс материалов) и «лит ье* (действие) представляют различные т ипы понятийи следовательно не могут быть связаны иерархически;b) «металлы» и «золот од* — оба представляют материалы и следовательно могут иметь иерар­хическую связь. 1) Для других языков [7]. 42
ГОСТ Р 7.0.91— 2015 Эти три типа иерархии можно явно различать в тезаурусе при использовании соглашений, опи­ санных в 10.2.2,10.2.3 и 10.2.4. Но это потребует дополнительной работы, и ее сложность должна быть оправдана ожидаемыми преимуществами. Основная функция иерархических отношений состоит в помощи индексаторам и специалистам, ведущим поиск, в выборе надлежащего уровня специфичности. Поиск может быть расширен или сужен переходом по шкале иерархии вверх и вниз. Обычная техника увеличения полноты поиска называется «поисковым взрывом» или «взрывным поиском», при этом поиск расширяется за счет включения в по­ исковое предписание всех нижестоящих терминов первоначально выбранного дескриптора [см. 16.3.3, перечисления е) и 0. 16.3.4. перечисление с)]. Тщательное следование указаниям пунктов с 10.2.2 — 10.2.5 обеспечит выдачу только тех материалов, которые соответствуют значению вышестоящего по­ нятия {первоначально выбранного дескриптора). П р и м е ч а н и е — Взрывной поиск в отличив от расширенного поиска не распространяется на ассоциатив­ ные термины (см. 10.3) 10.2.2 Р о д о в и д о в ы е отн ош ен и я 10.2.2.1 Родовидовые отношения — это связь класса или категории со своими членами или вида­ ми. Дополнительно к проверке на состоятельность по 10.2.1 это отношение также подлежит логическо­ му тесту «все и некоторые», как это показано на рисунке 2.Некоторые Iптицысуть попугаи 1 Все Рисунок 2 — Отношение, удовлетворяющее тесту «все и некоторые» На рисунке 2 проиллюстрировано, что некоторые члены класса «птицы» известны как «попугаи», а все «попугаи» по определению независимо от контекста рассматриваются как «птицы». Этот тест обычно подтверждает, что такие термины как «попугаи» не подчинены классу «домашние животные», поскольку не все «попугаи» являются «домашними». На рисунке 3 показано отношение этой пары тер­ минов.Некоторыеi домашние животныесутьпопугаи}Некоторые Рисунок 3 — Отнош ения, не удовлетворяющие тесту «все и некоторые» На рисунке 3 показано, что только некоторые члены класса «домашние животные» являются «по­ пугаями» и только некоторые «попугаи» являются «домашними животными». П р и м е ч а н и е — Работе на тему «попугаи как домашние животные» при индексировании должны быть присвоены два дескриптора, которые представляют оба эти класса. 10.2.2.2 Такое соотношение может не выполняться в специальном тезаурусе, посвященном «до­ машним животным», в котором попугаи рассматриваются только в данном аспекте. Тогда термин «попу­ гаи» может быть подчинен классу «домашние животные» в одной и той же иерархии. Такие упрощения действительности следует принимать с осторожностью, особенно в контексте информационных сетей, в которых записи из одной системы могут соседствовать с записями из других систем. Для взаимодей­ ствия систем установленные отношения должны иметь универсальную значимость. 10.2.2.3 Ссылки В Т/NT в английском языке и в /н в русском, как правило, достаточны для указания на родовидовые отношения, но при необходимости могут применяться более точные обозначения: BTG (Broader term generic) = в р (вышестоящий термин родовой) NTG (Narrower term generic) = н в (нижестоящий термин видовой).ПримерratsкрысыBTGrodentsвргрызуныrodentsгрызуныNTGratsнвкрысы. 43
ГОСТ Р 7.0.91— 2015 10.2.3 И ер ар хиче ско е отн о ш е н и е «целое — часть» Иерархическое отношение целое — часть охватывает ограниченный круг ситуаций, в которых часть объекта или системы принадлежит исключительно одному определенному целому. Это относится к следующим четырем главным классам терминов. a) Системы и органы тела:Примеркровеносная системакровеносные сосуды артерии вены. b ) Географические области:ПримерКанадаОнтариоОттаваТоронто. c) Дисциплины или тематические области:Примернаукабиологияботаника зоология. d) Иерархические социальные структуры:Примерармиякорпусдивизиябатальонполк. Большинство других случаев отношений «целое — часть» не подлежат иерархическому связы ­ ванию. поскольку часть может принадлежать более, чем одному целому. Например, отношение BT/NT не следует устанавливать между терминами «велосипеды» и «колеса», поскольку колесо может быть частью автомобиля, тачки и многих других изделий. Общий поиск по термину «велосипеды» привел бы к выдаче множества нежелательного материала, если бы поиск был расширен по всем типам ко­ лес. О днако в некоторых случаях части изделия принадлежат исключительно данному изделию, по крайней меро, в сфере применения тезауруса. Может оказаться целесообразным установление связей ВТ/NT, например, между терминами «fireplaces» и «hearths», «лук» и «тетива». Это обычно не приводит к противоречию и содействует общ ему поиску по вышестоящему термину. Но такая практика не реко­ мендуется для случая компонентов сложных машин, для которых более разумным решением будет образование вышестоящего термина «компоненты устройства», под которым будут перечислены раз­ личные компоненты в качестве видовых терминов (см. 7.5.2). 10.2.3.1 Пометы ВТ/N T обычно достаточны для указания на партитивное отношение, но могут также применяться более точные пометы: ВТР (broader term partitive) = в ц (вышестоящий термин целого) NTP (narrower term partitive) = нч (нижестоящий термин части)Примерцентральная нервная системавцнервная системанервная система нчцентральная нервная система. 10.2.4 О тнош ение м н о ж е с тв о — элем ент 10.2.4.1 Отношение множество — элемент связывает общ ее понятие, такое как класс вещей или событий, с элементами этого класса, которые часто бывают представлены именами собственными (см. 6.6.9).Примергорные массивыклассАльпыГималаиэлементы класса. 44
ГОСТ Р 7.0.91— 2015 В этом примере названия «Альпы» и «Гималаи», присвоены подчиненным позициям в иерархии. Однако они не являются ни видами, ни частями понятия «горные массивы», а представляют отдельные элементы. 10.2.4.2 Пометы ВТ/NT обычно достаточны для указания на отношение множество — элемент, но кроме этого могут применяться также и точные пометы: BTI (broader term instantial) = вм (вышестоящий термин множества); NTI (narrower term instantial) = н э (нижестоящий термин элемента).ПримерПариж вмстолицыстолицынэПариж. 10.2.5 П ол и и о р а р хи че ски е отн ош ен и я Некоторые понятия логически принадлежат одновременно более чем одной группе или классу. В таких случаях должна быть установлена прямая связь со всеми соответствующими широкими по­ нятиями. а структура тезауруса тогда называется полииерархической. Она противопоставляется моноиерархической структуре, которая допускает установление для каждого понятия только одной действи­ тельной связи ВТ.Примермузыкальные инструментыклавишные инструментыдуховые инструментыорганы В примере термин «органы» присвоен подчиненной позиции родовидового отношения к двум вы­ шестоящим терминам. В других случаях полииерархические связи могут быть основаны на отношении целое — часть.Пример — В некоторых случаях полииерархические отношения могут быть основаны на различных типах отношений.Примерчереп В примере связь между терминами «кости» и «череп» основана на родовидовом отношении (че­ реп это вид костей), а связь между терминами «голова» и «череп» основана на иерархическом отноше­ нии целое — часть (череп есть часть головы). Когда одно понятие имеет более одного вышестоящего понятия, должны быть указаны связи со всеми соответствующими терминами. Факультативно может быть показано различив типов отношений посредством соответствующих помет.Примерчерепиличерепвкостивркостиголовав цголова 10.2.6 Н е си м м е тр и чн ы е с т р у к т у р ы во м н о го я з ы ч н ы х и м у л ь т и к у л ь ту р н ы х тезаурусах Обычно все языковые версии многоязычного тезауруса имеют одинаковую структуру иерархии по­ нятий. О днако могут возникать сложности установления иерархии понятий, когда две или более соци­ альные общности, различающиеся по культуре, пользуются одним тезаурусом, особенно если понятия и термины, известные одной общности, не имеют однозначных соответствий у другой. Чтобы согласо- 45
ГОСТ Р 7.0.91— 2015 вать культурные и языковые различия и обеспечить равный статус языковым версиям одного тезауруса могут быть введены несимметричные структуры. Подходы к построению многоязычных тезаурусов см. в 13.3.3. П р и м е ч а н и е — Если применяются несимметричные структуры, то модель данных, описанная в п. 15, должна быть модифицирована. 10.3 А с с о ц и а ти в н о е отнош ение 10.3.1 О бщ ие полож ения Ассоциативные отношения охватывают ассоциации между ларами понятий, которые не связаны иерархически, но связаны по смыслу или по единству природы в такой мере, что связь между ними должна быть указана в тезаурусе, поскольку благодаря наличию этой связи при проведении индексиро­ вания или поиска удается предложить альтернативный термин. Это отношение обозначается пометой «RT» (related term = родственный термин) в английском языке и пометой «а» в русском языке, которые указываются взаимно для каждого из связанных терминов.Примерптицы аорнитологияорнитологияаптицы. Общее значение ассоциативных отношений таково: если используется одно из понятий, в рамках обычных для пользователей тезауруса представлений другое понятие подразумевается. Более того, один из терминов часто необходим при определении или объяснении другого. Например, термин «пти­ цы» составляет необходимую часть объяснения термина «орнитология». В частности, важно устанавливать ассоциативное отношение между понятиями с пересекающ им­ ся охватом. 10.3.2 Т ерм ин ы и п о н я ти я с пе р е с е ка ю щ и м и с я зн аче ни ям и 10.3.2.1 В повседневном употреблении некоторые термины в одних контекстах могут заменять друг друга, а в других — нет. Например, термины «ships — суда» и «boats — лодки» могут быть упо­ треблены для обозначения различных понятий, поскольку, хотя они имеют много общего, ни один из них не покрывает объем другого понятия. Если два таких понятия введены в тезаурус и представлены различными дескрипторами, то целесообразно установить между ними ассоциативную связь. При по­ иске это напомнит о том, что возможно следует использовать оба дескриптора, чтобы быть уверенным в отыскании всего релевантного материала.ПримерboatsлодкиRTshipsaсудаshipsсудаRTboatsaлодки. 10.3.2.2 Дескрипторы с пересекающимися значениями могут быть близкородственными термина­ ми. «братьями», т. е. они имеют общий вышестоящий термин. Но нет необходимости связывать ассоци­ ацией все близкородственные термины. Например, не нужно связывать ассоциацией термины «лош а­ ди» и «ослы», потому что они имеют общий вышестоящий термин «лошадиные», поскольку значения терминов «лошади» и «ослы» не пересекаются. 10.3.3 Д р у ги е с л у ч а и а с с о ц и а т и в н ы х связей Достаточные основания для ассоциативной связи имеются тогда, когда один термин устойчиво вызывает представление о другом термине. Нижеследующие примеры представлены только как типич­ ные ситуации отношений, встречающиеся на практике. а) Дисциплина или область исследования и изучаемые объекты или явления:Примеры1 лесное хозяйствоалес 46
ГОСТ Р 7.0.91— 2015лесалесное хозяйство2 нейрологияанервная системанервная системаанейрология. Ь) Операция или процесс и его агент или инструмент:Примеры1 регулирование температурыатермостатытермостаты арегулирование температуры2 уголовный розыскаследователиследователи2 ауголовны й розыск. с) Действие и результат действия:Примеры1 weavingткачествоRTclothатканьclothтканьRTweavingаткачество.2 пахотааплугиплуги апахота.d) Дейст вие и то. на что оно направлено:Примеры1 сбор урожаяаурожайурожайасбор урожая2 арестаарестантыарестантыарест. е) Объекты или материалы и их определяющие свойства:Примеры1 магнитыаферромагнетизмферромагнетизмамагниты2 ядыатоксичностьтоксичностьаяды. 47
ГОСТ Р 7.0.91— 2015 f) Изделия и их части, если они не пригодны для отношения целое — часть (см. 10.2.3):Примероптические инструментыалинзылинзыаоптические инструменты. д) Понятия, связанные причинной связью:Примеры1 bereavementRTdeathdeath RTbereavement2 болезниапатогеныпатогеныаболезни. h) Объект или процесс и противодействующий агент:Примеры1 растенияагербицидыгербицидыарастения2 возгораниеаогнетушителиогнетушителиавозгорание. i) Понятие и единица его измерения:Примерэлектрический токаамперметрыамперметрыаэлектрический т ок j) Сложный термин и опорное существительное словосочетания, если соответствующие два по­ нятия не находятся в точном иерархическом отношении:Примеры1 модели кораблейакорабликорабли амодели кораблей.2 ископаемые пресмыкающиесяпресмыкающиесяпресмыкающиесяаископаемые пресмыкающиеся. 48
ГОСТ Р 7.0.91— 2015 к) Организм или субстанция, произошедшая или произведенная из другой:Примеры1 мулы аослыослы амулы.2 латунь амедьмедь алатунь. 10.3.4 М н о го я зы ч н ы е и м у л ь т и ку л ь ту р н ы с тезаур усы Для того чтобы обеспечить достаточность ассоциативных связей во многоязычном тезаурусе, должны быть учтены потребности в установлении связей пользователей всех языковых версий. Как уже описано в 9.1. 9.2 и 10.2.6. сообщества с различными культурами или различными языка­ ми. пользующиеся одним и тем же тезаурусом, иногда нуждаются в таких понятиях и связях понятий, которые незнакомы другим. Когда для удовлетворения этих потребностей вводятся несимметричные иерархические структуры, как правило, оказываются необходимыми также и несимметричные ассоци­ ативные связи. П р и м е ч а н и е — Если допускаются несимметричные структуры, модель, описанная в разделе 15. должна быть модифицирована. 10.4 П о л ь зо в а те л ьс ки е отн ош ен и я Отношения эквивалентности, иерархии и ассоциации, описанные в 8. 10.2 и 10.3. хорошо опре­ делены. широко используются и обычно рассматриваются как вполне адекватные в контексте исполь­ зования человеком для получения сведений о вышестоящих, нижестоящих и связанных терминах при выборе способа выражения своей информационной потребности. Однако иногда возникает необходи­ мость в дополнительных или более точных типах отношений. Таким ж е образом, как иерархические отношения разрешается подразделять на отношения род — вид. целое — часть и множество — элемент, так и отношения эквивалентности и ассоциации разре­ шается подразделять, если это необходимо для специального использования. Например, для аббре­ виатур и акронимов может быть введено отдельное отношение эквивалентности. Для их обозначения должны быть назначены пометы, отличные от USE/UF, например FT/АВ от «Full Term» и «Abbreviation», или для русского языка — п ф /кф от «полная форма» и «краткая ф орма». Аналогично для ассоциатив­ ных отношений можно ввести подразделение на такие два типа отношений как причина и следствие, обозначаемые такими пометами как CAUSE/EFFECT, или ПРИЧИНА/СЛЕДСТВИЕ. Прежде чем предпринять попытку установления более специф ичных отношений, разработчик те­ зауруса должен убедиться, что уточненные отношения будут действительно необходимы, а не останут­ ся просто привлекательным интеллектуальным конструктом. Предназначение тезауруса состоит в том. чтобы служить определенному коллективу пользователей в определенных обстоятельствах. И выгоду, получаемую от введения дополнительных отношений, может перевесить дополнительная сложность восприятия этих отношений пользователями. Однако проведение дополнительной работы можно счи­ тать оправданным, если тезаурус предполагается использовать в функции онтологии или во взаимо­ действии с ней. (В онтологиях обычно прорабатываются более специфичные и четко определенные отношения). П р и м е ч а н и е — См. рекомендации по этим вопросам в настоящем стандарте. В случае, когда в тезаурусе имеются специф ические особенности, требуемые заказчику, важно чтобы пользователь был осведомлен об этом и. чтобы использование такого специализированного те­ зауруса совместно с обычным тезаурусом не вызывало недоумения. Введение нестандартных помет или символов влечет за собой опасность потери совместимости при взаимодействии данного тезауруса с другими. Этот риск может быть уменьшен, если предоставляется гарантия того, что новые отношения являются истинными подвидами стандартных типов отношений. 49
ГОСТ Р 7.0.91— 201511 Фасетный анализ Фасетный анализ полезен при установлении иерархических отношений, удовлетворяющих прави­ лам 10.2, поскольку эти отношения действуют только между понятиями, принадлежащими одной и той ж е общей категории. Выбор фасетов может варьировать в зависимости от тематики тезауруса, но на самом верх­ нем уровне обычно используют фундаментальные категории — объект , м ат ериал, д е й с т в у ю щ и йагент , д е й с т ви е , м ест о, в р е м я и т. л. Там, где это целесообразно, эти фасеты могут быть разбиты на подфасеты до требуемого уровня дробности. Например, действия могут быть подразделены на не­ транзитивные п р о ц е с с ы (например, «созревание» или «ухудшение») и транзитивные о п е р а ц и и (на­ пример. «отрезание» или «исправление»). П р и м е ч а н и е — Действие называется негранзитивным, если действующ ий агент не воздействует на дру­ гой объект, в то время как агент транзитивного действия воздействует на обьект действия. Так, созревание ябло­ ка — внутренний процесс, но при разрезании яблока нож воздействует на него как на объект операции. Пример применения фасетного анализа при классификационном упорядочении приведен на ри­ сунке 4. где показаны некоторые термины из общего класса «industries». Непосредственно под этим термином располагаются два подчиненных термина «agricultural industries — сельскохозяйственное производство» и «engineering industries — промышленное производство». Один из фасетов, показан­ ных лсд «agricultural industries» является «products — продукты». В этом фасете показано только два уровня иерархии, за исключением термина «m ilk — молоко», который расписан так. что показано, как его нижестоящие термины сгруппированы в ряды, каждому из которых предшествует метка узла, ука­ зывающая на основание деления. Эти ряды представляют различные способы подразделения понятия «milk» — по жирности, по биологическому виду животных и т. п., на что указывает слово «Ьу = по» в составе каждой метки узла. В отличие от этого метки узлов, которые вводят новью фасеты, такие как «people» и «products», не содержат слова «Ьу». Необходимо отметить различие в структуре иерархических отношений терминов, разделенных метками узлов. Если метка показывает основание деления понятия, все термины, следующие за нею. обозначают подчиненные видовые понятия для вышестоящего термина. В то время как там. где метка узла вводит новый фасет, следующие термины обычно не соответствуют видовым понятиям предыду­ щего термина. Например, «farm managers = менеджеры ферм» и «cereal products = зерновые продукты» и т. п. не являются видами «agricultural industries — сельскохозяйственное производство». Метки узлов не являются терминами тезауруса. Они служат только для систематизации выдачи и они не могут быть членами отношений, описанных в разделе 8 — 10. Чтобы избежать недоразумений, метки узлов должны быть выделены шрифтом, отличным от шрифта терминов. Обычно для этого ис­ пользуют курсив и скобки, например как на рисунке 4. Некоторые другие пути применения фасетного анализа проиллюстрированы в 12.2.4 и 12.2.5. Термины, представляющие понятия одного ряда, могут быть представлены как в алфавитном, так и в систематическом порядке. Алфавитная последовательность целесообразна тогда, когда нет других очевидных путей группировки понятий. Систематический порядок целесообразен тогда, когда он ис­ пользован большей частью пользователей или когда он помогает прояснить значение терминов. В при­ мере с электромагнитным излучением (приведенным ниже) виды излучения расположены в порядке возрастания длины волны, что может помочь индексаторам в выборе подходящего термина.ПримерЭлектромагнитное излучение<по длине волны>ультрафиолетовое излучениевидимый светинфракрасное излучениемикроволновое излучениерадиоволны. П р и м е ч а н и е — Этот пример использует слегка измененные, но приемлемые соглаш ения о метке узла: угловые скобки вместо круглых, и родительский термин не выписан в начале метки узла. Присутствие слова «по», однако, показывает, что метка узла определяет основание деления и расположения типов излучений. В некоторых тезаурусах имена фасетов включены в качестве дескрипторов и рассматривают­ ся как термины высшего уровня, под которыми может быть показана полная иерархия терминов (см. 12.2.4). В других случаях может не существовать полного указателя всех фасетов, а ф асетные имена появляются только в качестве меток узлов, как это представлено на рисунке 4. или в качестве имен по­ нятийных групп (см. 15.2.18 — 15.2.19). 50
ГОСТ Р 7.0.91— 2015 industries agricultural industries (people) farm managers dairy personnel shepherds (p ro d u cts) cereal products dairy products butter cheese cream ice cream m ilk (m ilk b y fa t co n te n t) whole m ilk low fat m ilk skim m ilk (m ilk by form ) dried m ilk liquid m ilk (m ilk by source anim al) buffalo m ilk cow m ilk goat m ilk sheep m ilk (m ilk b y tre a tm e n t typ e ) condensed m ilk evaporated mifo homogenized m ilk pasteurized m ilk stenlized m ilk engineering industries (people) engineers (p ro d u cts) bolts wheels etc E X A M P L E 1 « P ro d u ls » is a n e x a m p le o f a n o d e la b e l th a t in d ic a te s ch a n g e s o f facet. E X A M P L E 2 « M ilk by so u rc e a n im a l» is an e xa m p le o f a n o d e la b e l in d ic a te s c h a ra c te ris tic s o f d iv is io n o f arra ys. Рисунок 4 — Частично развернутый классификационный указатель класса «industries» с метками узлов, показывающими смену фасетов и оснований деления рядов терминов12 Представление и оформление тезауруса 12.1 О бщ ие полож ения 12.1.1 И с п о л ьзо в а н и е б азы д а н н ы х д л я в ед он и я указател ей и н ф ор м ац и и В компьютерной системе тезаурус обычно представлен в структуре базы данных (см. раздел 15), где каждый отдельный термин и каждая связь пары терминов записаны только один раз. Это обеспе­ чивает постоянство отношений и позволяет выделять и показывать термины различными способами. 12.1.2 О бзор с ти л е й пр ед ста вл ен и я тезауруса Представление тезауруса на человекочитаемом носителе, на экране или в печатной форме, воз­ можно с помощью следующих приемов: а) единая запись — это основная форма представления тезауруса, включающая статьи дескрип­ торов и аскрипторов и выборочно некоторые или все их отношения, коды и примечания; 51
ГОСТ Р 7.0.91— 2015 b) алфавитное упорядоченно, обеспечивающее доступ к понятиям по словам, которыми пользо­ ватели первоначально выразили понятия. В печатном тезаурусе такая форма служит одним из указате­ лей, а при компьютерном представлении она способна дополнять функцию прямого поиска; c) иерархическое упорядочение на основе отношений выше/ниже позволяет расширять и уточ­ нять понятия при индексировании и поиске; d) классиф икационное упорядочение позволяет просматривать предметную область по связям понятий, e) графическое отображение показывает термины и их отношения наглядным образом; f) пермутационный указатель облегчает поиск слов, входящих в состав многословных терминов. Эти различные приемы дополняют друг друга. Важно, чтобы был обеспечен алфавитный доступ, либо путем прямого поиска, либо по алфавитному указателю, как описано в перечислении Ь). Должен иметься по крайней мере один из указателей — с) или d), дающ ий систематический обзор тезауруса. Дополнительные данные о каждом понятии, такие как лексические примечания и отношения с другими понятиями, могут быть показаны в каждом из этих указателей. Тезаурусы могут сильно отличаться в оценке относительной важности и функций различных указателей, как в части упорядочения, так и в части представляемой в этих указателях информации. Графический указатель может предоставлять полезный общий обзор области знания, но этот указатель сложен для создания и ведения, и его струк­ тура затемняется, если он содержит слишком много дополнительных данных. Пермутационный указа­ тель служит как справочник всех слов во всех терминах (дескрипторах и аскрипторах), для этого можно использовать форматы KWIC (key word in context — ключевое слово в контексте) или KWOC (key word out o f context — ключевое слово вне контекста). Этот указатель полезен для печатных тезаурусов, но обычно не требуется для автоматизированных систем, в которых возможен поиск по последователь­ ности букв. 12.1.3 Н отация и с в я зи м е ж д у указател ям и Алфавитный указатель в печатной форме должен показывать место термина в других указателях с помощ ью либо номера строки, либо системы обозначений, либо с помощ ью указания термина выс­ шего уровня в иерархии данного термина (если иерархии тезауруса не слишком обширны). Для связи с графическим указателем от алфавитного указателя может понадобиться система координат. При выво­ де указателей на экран компьютера могут не понадобиться отображаемые символы связей, поскольку автоматически сформированные гиперссылки должны обеспечивать легкое переключение от одного указателя к другому, сохраняя при этом позиционирование на рассматриваемом термине. В классиф икационном указателе нотация может отображать классиф икационную структуру и быть рассчитана на создание кодов предкоординированных классов, отражающих сложные понятия. Любая система нотации должна допускать введение нового понятия в любой точке классиф икационно­ го упорядочения терминов. 12.2 А л ь те р н а ти в ы стил ей ото бр аж ен и я тезауруса 12.2.1 О бщ ие полож ения Существует слиш ком много возможностей разных стилей представления тезауруса, что не по­ зволяет их все здесь проиллюстрировать. В пунктах от 12.2.2 — 12.2.6 приведены примеры основных типов указателей. Чтобы облегчить сравнение и сопоставление, они иллюстрированы общим набором терминов, выражающих понятие «cameras = фотои кинокамеры» и связанные с ним. Иллюстрации подобраны так. чтобы содержать все основные типы отношений, а также некоторые факультативные элементы, такие как метки узлов и нотация, которые представляют сложность для ведения. Там, где присутствует нотация, использована простая система номеров строк. П р и м е ч а н и е — В этом разделе не рассматриваются многоязычные тезаурусы. Они описаны в 12.3. 12.2.2 П ре дставл ени е о д н о й с л о в а р н о й с та тьи Представление одиночной записи о понятии или дескрипторе должно обычно начинаться с д е ­ скриптора, за которым следуют другие поля словарной статьи в следующем порядке: a) СС — код понятия или обозначение, указывающ ее место термина/поиятия в иерархии; b) SN — лексическое примечание; c) UF — ссылки на эквивалентные аскрипторы; d ) ТТ — ссылки на термины высшего уровня; e) В Т — ссылки на вышестоящие термины; f) NT — ссылки на нижестоящие термины; g) RT — ссылки на ассоциированные термины; 52
ГОСТ Р 7.0.91— 2015 h) DEF — определение дескриптора (см. 6.2.3): i) HN — историческое примечание (см. 6.2.4): j) SC — предметная категория или другая понятийная группа, к которой относится понятие. Здесь ссылки SN и UF даны в начале списка, поскольку они проясняют значение понятия. За ними следуют отношения к другим понятиям. DEF и HN идут в конце, поскольку рассматриваются как административные поля, используемые больше редакторами, чем при поиске или индексировании. Их возможно также указывать сразу после лексического примечания, тем самым все текстовые поля будут собраны вместе. Однако важно обеспечить, чтобы DEF и SN не смешивались в том случае, если и то и другое поле присутствует. Д ля аскрипторных статей порядок полей следующий: - USE — ссылка на соответствующий дескриптор (предпочтительный термин); - DEF — определение аскриптора (непредпочтительного термина) (см. 6.2.3); - HN — историческое примечание (см. 6.2.4). Д ля отдельных приложений выбор и последовательность элементов могут быть изменены. На­ пример. редактор тезауруса может захотеть для собственного использования включить некоторые ад­ министративные поля (см., например. 15.2.4.15.2.9. 15.2.14). 12.2.3 А л ф а в и т н ы й ука за те л ь 12.2.3.1 В алфавитном указателе все термины (дескрипторы и аскрипторы) приводятся в единой алфавитной последовательности. Дескрипторы и аскрипторы должны по возможности различаться ти­ пографским способом, так чтобы непредпочтительный статус аскрипторов был очевиден. (В печатном издании для этого можно применять курсив). В некоторых случаях будет достаточен простой список терминов. В большинстве случаев в указатель включают полные записи каждого термина согласно 12.2.2 . 12.2.3.2 Пример такого указателя приведен на рисунке 5. Кроме указателя, обеспечивающего вы­ дачу единой тезаурусной статьи, этот указатель является простейшим типом представления тезауруса с точки зрения его формирования и ведения. Чаще всего принимается соглашение указывать только непосредственно вышестоящие и нижестоящие термины: при этом экономится место, но другие уровни иерархии перестают быть очевидными. 12.2.3.3 Можно показывать и больше одного уровня иерархии, но тогда следует указывать номер уровня вышестоящих и нижестоящих терминов, как делается в примере, приведенном ниже. Однако если использовать это соглашение, то место, необходимое для показа всех уровней иерархии всех терминов может оказаться слишком большим.ПримерполорогиеВТ1жвачныеВТ2 млекопитающиеВТЗ позвоночныеNT1 буйволы NT1 крупный рогатый скотNT2 мясной скотNT2 молочный скотNT1 яки. 53
ГОСТ Р 7.0.91— 2015г 35 mm cameras dvng equipment physical properties СС: Н012 CC: 0001 CC A202 • ВТ «го cameras ВТ equipment ВТ: properties i awaking* NT: aqualungs NT pressure ' СС 0002 diving sorts temperature ВТ diving equipment face masks physicists swimming fins j camera accessories CC POOS underwater cameras ВТ: people1 CC: H002 RT. diving ВТ photographic equipment RT physics NT: flashguns diving suits physics lignt meters CC: D003 CC P000 tripods ВТ diving equipment ВТ: fleas of work RT: cameras NT: diy suits RT physicists wet suits camera components Polaroid» cameras СС: H006 dry suits USE instant picture cameras ВТ cameras end camera CC: D004 pressure components ВТ diving suits CC A208 NT: camera tenses equipment ВТ: physical properties camera viewfinders CC- A001 properties camera lecees NT: drvng equipment CC- A200 СС: H007 etectncally-pcwered equipment NT physical properties 8T camera components fixed equipment human powered eqixpment reflex cameras camera viewfinders photographic equpment CC. H017 CC: HOOB physics equipment SN: Cameras In which the image is ■ ВТ camera components portabte equipment reflected on to a giass cameras exposure meters screen for composing and i cc. ноое USE: light meters tocusmg. ВТ cameras and camera ВТ: cameras components face masks NT: angle tens reflex cameras NT digital cameras CC- D006 rwn fens reflex cameras film cameras ВТ: (*vwg equipment single lens reflex cameras instant peture cameras fields of work CC: H018 plate cameras CC: A300 UF:S L R c a m e ra s reflex cameras NT diving ВТ: reflex cameras spsoal-purpose cameras photography RT camera accessories physicsS IR cameras photography USE: single tens reflex cameras film cameras cameras and camera components CC HOI1 special-purpose cameras CC HC05 ВТ: cameras CC: H02I ВТ: photographic equpment NT 35 mm cameras ВТ cameras NT camera components medium format cameras NT: stereo cameras cameras miniature cameras underwater cameras colour instant picture cameras stereo cameras CC: A204 CC. M015 CC: H022 ВТ: optical properties SN: Cameras which produce a finished ВТ- speciat-purpose cameras contrast pnnt direcCy swimming fine CC A206 UF Potorod cameras» CC: D007 ВТ: optical properties ВТ: cameras ВТ- dvng equipment d ig ** earner» people temperature CC' H010 CC A100 CC: A209 UF*. NT: adults ВТ: physic») propertiesu n d e rw a te r d ig ita l c a m e ra s ВТ: cameras children tripods divers divers CC: H004 infants CC: 0008 ВТ. camera accessories models (people) ВТ: people photographers twin tens reflex cameras RT: diving physicists CC: H019 diving ВТ. reltex cameras photographic equipment СС: DOOO CC MOOl underwater cameras ВТ: folds of work ВТ equipment CC. 0028. H023 RT divers NT: camera accessories UF+ underwafer dgra.1 ca m eras diving equpment cameras and camera components ВТ- special purpose cameras RT: photography diving equipment RT diving photography CC: H000u n d e rw a te r d ig ita l cameras ВТ fields of wont USE digital cameras RT: camerasf underwater cameras photograpners ______photographic equemerfl_______ Рисунок 5 — «Алфавитный указатель тезаурусных терминов (некоторые термины пропущены для экономии места») 54
ГОСТ Р 7.0.91— 2015 12.2.4 И е р ар хиче ски й указател ь Иерархический указатель для одного языка формируют путем размещения каждого ряда нижесто­ ящих терминов под их родительским вышестоящим термином. Другие отношения (такие как отношения эквивалентности и ассоциации) обычно в этом указателе не показывают, поскольку это сделало бы структуру указателя трудной для восприятия. В результате получается множество иерархических дере­ вьев. возглавляемых различными терминами высшего уровня (не имеющими над собой вышестоящих). В противном случае после произведения фасетного анализа на верхнем уровне тезауруса, все термины одного фасета могут сгруппироваться в одну иерархию, возглавляемую меткой узла, содержа­ щей имя фасета, как показано на рисунке 6. (Имена фасетов на рисунке 6 — «objects = объекты», «feld o f work = область деятельности», «people = люди», «properties = свойства»). Когда фасетный анализ применяется в такой форме, термины группируются в фасеты согласно базисным категориям тех понятий, которые эти термины представляют (см. 10.2.1 и раздел 11). несмо­ тря на то. с какой областью или областями эти понятия обычно соотносятся. При сравнении этого подхода с изложенным в 12.2.5.2, где первоначальная организация терминов идет по темам, и фасеты формируются внутри тем. можно отметить следующие преимущества перво­ начального проведения фасетного анализа: a) менее вероятна необходимость серьезной перестройки указателя в случае, если некоторое по­ нятие изменит свою тематическую область; b ) при взаимодействии с другим и инф ормационными центрами можно ожидать достижения боль­ шего уровня согласованности. Однако необходимо отметить и следующие недостатки: a) организация по фасетам разбрасывает понятия, связанные внутри своей тематики, по разным группам; b ) понятийный базис, на котором построен тезаурус, делается менее очевидным; c) если тезаурус охватывает все или широкий диапазон дисциплин, то вряд ли объединение эле­ ментов и процессов различных дисциплин приведет к образованию разумной последовательности тер­ минов. Следовательно, такой вид указателя целесообразно использовать только в случае тезаурусов, посвященных одной определенной дисциплине. 55
ГОСТ Р 7.0.91— 2015(objects)(objects) (com.) equpment equipment fconf) «equipment by portability*«equipment by application» (com ) fixed equipment physics equipment . . portable equipment . optical instruments «equipment by рон-ег source» . light meters. . electn caiy- роле red equipment microscopes human-pcwered equpmem «equipment by application»(fields of n-ork) diving equipment «ей» of work . aaualung* . diving .Cfiving suits . photography . . . dry suits . physics wet suits . . , (ace masks(people) . . . swimming fins people . underwater cameras«people by ege> . photographic equipment infants . . . camera accessories children . . . dash guns adults ___fight meters«people by profession» . . . . tripods ..divers . . . cameras and camera components .. models (people) . . . . camera components photographers ........ camera lenses physicists ........camera view fnders . . . . cameras(properties} ___ «cameras by imaging technique» properties . . . . digital cameras physical properties . . . . fifin camoras .. optical properties . . . fifln size» . . . colour ............ .3 5 mm cameras contras) ..............medium format cameras . , . luminance ..............miniature cameras luminosity ..........Instant picture cameras . . pressure ..........plate cameras .. temperature . . . . «cameras by viewing method» reflex cameras .......... single lens reflex cameras ..........twin lens reflex cameras .......... viewfinder cameras special-purpose cameras . . stereo cameras . . . . underwater cameras Рисунок 6 — Иерархический указатель тезаурусных терминов, упорядоченный по фасетам 56
ГОСТ Р 7.0.91— 2015 12.2.5 К л а с с и ф и ка ц и о н н ы й ука за те л ь 12.2.5.1 Упорядочивание терминов тезауруса по тематическим полям Организация терминов тезауруса по дисциплинам или тематическим областям подобна подходу, используемому при разработке библиотечных классиф икаций, когда все начинается с распределения универсума понятий по классам основных дисциплин. Применительно к тезаурусам категории поня­ тий сначала необходимо сгруппировать так. чтобы это соответствовало интересам пользователей. Эта техника применяется к тезаурусам, охватывающим некоторый диапазон тематических областей. Те по­ нятия, которые принято связывать с некоторой областью, например «искусство», собираются вместе и эксплицитно отграничиваются от понятий, принадлежащих другим областям интересов, например таких как «экономика» или «физика». Этот подход также может быть применен и к таким тезаурусам, которые охватывают только одно тематическое поле. Так. лексику тезауруса, посвященного медицине, сначала распределяют по таким подполям, как «хирургия», «физиология», «анатомия» и т. п. Кроме того, в качестве расширения ядер- ных понятий в тезаурус могут быть включены и понятия из таких других дисциплин как «управление», «право», «обработка данных», которые следует отделять от медицинских терминов. Предметный подход имеет то преимущество, что позволяет организовать понятия в группы, кото­ рые в целом соответствуют образу мыслой пользователей. Трудность заключается в том. что одно и то же понятие часто используется в нескольких различных областях, например, если тезаурус охватывает как лесное хозяйство, так и агрономию, то он будет содержать много понятий, таких как «растение», которые встречаются и там. и там. Такие понятия следует либо повторять в каждом поле, где они ис­ пользуются, либо включать в отдельный список общ их понятий, не ограниченных использованием в каком-либо одном поле. Группирование понятий по тематическим полям с алфавитной или тематической упорядоченно­ стью родственных терминов и с расположением узких понятий под соответствующими широкими, со­ блюдая абзацный отступ, приводит к построению такого указателя, который хотя и выглядит как ие­ рархический, но в котором, подчиненные термины могут не подчиняться правилам для иерархических отношений, описанным в п.10.2. Следовательно, метки узлов, дающ ие имена фасетам, должны быть введены в такой указатель для того, чтобы отметить, где следуют различные фасеты и где отношения не соответствуют иерархии по правилам раздела 11. 12.2.5.2 Фасетная организация терминов тезауруса внутри предметных областей На практике различные подходы, описанные в 12.2.4 и 12.2.5.1 часто комбинируют, как. напри­ мер, в случае, когда тезаурус сначала организуют по тематическим полям, а далее подразделяют по фасетам. На рисунке 7 проиллюстрирован комбинированный подход на примере тезауруса, который вклю­ чает тематику подводного плавания, фотографии и физики. В каждом из этих полей показаны только те дескрипторы, которые относятся только к этому полю. Термины, общие для всех трех полей, представ­ лены в разделе общих терминов. После первичного деления по тематике следует деление по фасетам. На рисунке 7 каждый тематический раздел поделен на фасеты «объекты», «люди» и «свойства». В печатном указателе часто бывает необходимо ограничить общий размер продукта путем выбора одного основного места для каждого термина. Термин может быть повторен и в других местах, но про­ странство экономится за счет исключения повторного перечисления нижестоящих терминов. Предпо­ лагается. что пользователь может посмотреть основную запись термина, где найдет полную иерархию. Так на рисунке 7 основное место термина «properties» есть А200. где показаны нижестоящие термины «chemical properties», «physical properties» и все другие. В раздело подводного плавания единственные ф изические термины, которые были включены, это «pressure» и «temperature». В фотографическом разделе полностью приведены только оптические свойства. 57
ГОСТ Р 7.0.91— 2015 А000 gorvoral terms H000 photography(objects)(objects) АС01. equpment . equipment (A001) by
.oortatxWy> hoot . . photographic equipment AG02 fixed equipment H002 . . . camera accessories АООЗ portable equipment H003 . . . flash guns ,, light meters (PC03) А004 cte«rc8«y-powered equipment H004 . tripods АС05 . human-powered equipment H005 . . , cameras and camera components•equipment by appfcatioo» H006 . . . camera components diving equipment (D001) M007 camera tenses photographic equipment (H001) H008 camera viewfinders .. physics equipment (P001) H009 . . . cameras(oeople) ------ А100 people H010 ..........digital cameras H011 . . . . film cameras А101. nfants ftVn size» А102 . . . children H012 . . , 35 mm cameras А103 . . . adults H013 medium format cameras . H014 . , miniature cameras , . divers (D008) HOI 5 . . instant picture cameras . models method» . . . physics* (P005) H017 . . . . reflex cameras(properties) H018 single tens reflex cameras А2С0 propertes HOI 9 ......... tvwn lens reflex cameras А201 ,. chemical properties HO20 . . viewfinder cameras А202 physical properties H021 . . . special-purpose cameras А203 . optica! properties H022 . . . . stereo cameras А204 .. . colour H023 . . . . underwater cameras А2С6 . . . . contrast H024 ......... high pressure underwater cameras А2С6 . . . luminance(people) А207 . luminosity А2С8 pressure. people (A100) А209 . . . temperature H025 models (people) ноге photographers(Helds of wort0(properties) А300 fields of wot* properties (A2O0) . diving (DOOO) . . physeal properties (A2Q2) photography (H000) . optical properties (A203) . physics (PCOO) . . . colour (A204) . . . . contrast (A206) DOOO diving luminance (A205)(objects) luminosity (A207) equipment (A001) D001 . diving equipment POOO physics D0O2 . . . aqualungs(objects) D003 ., diving suits equipment (A100) 0004 ----- dry suits P001 physics oquapment D005 . . wetsuits P002 . optical instruments особ . . . face masks P003 . .. »ght meters DC07 . , swimming fins P004 .. microscopes underwater cameras (H023)(people)(people) people (A100). people (A100) POOS physicists 0008 . divers(properties) (properties) properties (A200) . properties (A2G0) physical properties (A202) . . physical properties (A202) . . pressure (A208) . . . temperature (A209) Рисунок 7 — Классиф икационный указатель тезауруса, организованный по фасетам внутри тематических полей 58
ГОСТ Р 7.0.91— 2015 На рисунке 7 также проиллюстрировано использование обозначений для ссылки на термин в классиф икационном указателе. В этом примере термины имеют только одно обозначение, соответ­ ствующее их основному месту. Когда термин повторяется в другом месте, он сопровождается своим обозначением (в скобках), которое помогает пользователю найти основное место термина. Некоторые тезаурусы позволяют терминам иметь дополнительные обозначения, так чтобы каждое повторение могло быть легко локализовано. Выбор основного местоположения терминов является обычным методом сокращения объема пе­ чатных тезаурусов, что. однако, при полном изучении понятия приводит к необходимости осуществле­ ния дополнительных шагов. Выдача на компьютере может сделать процесс просмотра много легче, если пользователи могут разворачивать и сворачивать иерархию, выбирая только те детали, которые они хотят видеть. 12.2.5.3 Расширенный классификационный указатель К типу указателя, который приведен на рисунке 7. чтобы представить термин во всех его локализа­ циях. могут быть добавлены все данные, описанные в 12.2.2. Хотя на рисунке 8 это и не осуществлено в полной мере, он иллюстрирует включение дополнительной информации — лексических примечаний, аскрипторов. ассоциативных терминов, но не иноязычных эквивалентов. П р и м е ч а н и е — Сравните, например, underwater cameras (подводные камеры) на Н023. Включение дополнительных данных увеличивает объем. Д ля противодействия этому на рисунке 8 принято иное соглашение относительно повторения иерархий. Сравнивая рисунок 8 с рисунком 7, мож­ но увидеть, что упоминание «pressure» и «temperature» в разделе рисунка 8. посвященного «подводно­ му плаванию», в отличие от соответствующего места рисунка 7 не включает вышестоящих над этими терминами терминов «physical properties» и «properties». Чтобы их найти, пользователь должен пройти по связям, указанным метками А208 и А209, где показана полная иерархия. Кроме экономии места этот подход позволяет избежать создания ложного впечатления о содержании широких терминов, таких как «свойства» или «физические свойства», когда они встречаются во вторичных локализациях. В заключение, обзор преимуществ указателей, приведенных на рисунках 6 — 8 следует отметить, что ни один из них не может быть рекомендован в качестве наилучшего во всех случаях. Каждый из под­ ходов имеет преимущества и недостатки, оценка важности которых меняется в зависимости от контек­ ста использования. Возможны и д ругие варианты: упорядочение по понятийным группам (см. 15.2.18). Однако необходимо, чтобы в дополнение к обычному алфавитному указателю пользователям была доступна, по крайней мере, одна форма систематического, иерархического или классификационного указателя (см. 12.3.4 относительно вопросов многоязычных тезаурусов). 59
ГОСТ Р 7.0.91— 2015 АООО general term s photography (c o o t) b y р о Л а Ш у * cameras art! camera оотрюпегй* (con*) А002 fixed equipment носе . camera ccmpcnerte АООЗ pertatre equpmer* HC07 . camera tenees «ецадрпмо.* b y power «outre» НСОЧ camera н w inde r* А0«М doctnceily-pcwered equpment HC09 А0О5 human-powered ©qupmert < c М Ш by a© a g in g te c h n iq u e » чадрлгеп! b y apptaahon» H010 . d ig iU t c a m e ra s diving eqjpment [D0C1] UF* undtnwter tS&tei cameras photograph© ©qupmert [H001] H011 . Ш cameras physios eaupment (POOt| b y
ftVn so»> «peopte» H012 35 nvr cameras А1С0 people Н01Э •nedum toirvit cameras «people by где» H014 . miniature cameras AT01 nfarts 4015 inetsnt picture cameras А'02 chicten SN Cameras which produce a finished print direct* АЮЗ anuts UF ДАгеи*» cameras . «people b y pvw'csswi» H016 pfste cameras dheis loooai «cameras by viemirg method» mcctets (people) IH02SJ H317 reflex cameras photographers [H026] SN Cameras ю which the таре » reflected en to phy8O8ts|P005J a glass screen tor composing and tocusmg «preperves» note single lens njrte* cameras А200 preporfles UF S ift cameras А201 cham car properties НЭ19 tan ten* reflex cameras А202 physical properties НЭ20 . . viewfinder cameras А203 .. optical properties НЭ21 special-pupose cameras А20-1 colour НЭ22 stereo cameras А205 .. contrast H323 underwater cameras А206 'uminance SN cameras far taking petures inter water RT lgot meters (P003! UF*: underwaterdigitalcameras А207 ummoeity ВТ ctvmg equipment (ООО IJ А208 .. pressure H324 h ^ i pressure underwater cameras А209 temperature< p « o p h * -.fietos Ы »©rfr> peepte |A100] АЗОО fields of work H32S models (people) d vhg [OCCCJ Ю26 photographers . photography [HOOO] «properties» physics (РООЭЗ . optical pjopertiee (A2C3) D000 diving СОЙОТ [A204j contrast (A20S) «ejects» luminance |A205; D001 dr»ing ecupreent tjrrlnosity (A207) BT egupimsnl [AOO'I D002 aqualungs POOO physics 0003 Ovng suits «objects» D0C4d ry suits PCOI physcs equipment 0005 . wet suils 87: equpmsnt jA100) 0006 face masks PIJ02 optical rwumenes СО07 swtmmmgflns P003 HJht meters underwater cameras [НЭ231 UF e/posora meters R1 tom range [A205) соое dn«rs POW m*70SCC039 BT pecpre[Ai00J « p e o p le » «properties» POOS physicists pressure [A2C6] ВТ. ресрГе JA*03| temperature |A209j «•p'Operttes» нооо photography p h y s ic a l p ro p e rtie s (A 2 0 2 ) . optical properties (А20Э] «овуесм» cotour |A20fl| Н001 photographic equipment contrast [A205) BT: equipment (A001I tornintnee |A206] КЮ2 camera аэсемопес luminosity [A207] нооз flashguns pressure (AJCe] IgM meters [РСОЗ] temperature |A208J Н004 . tnpode Н005 cameoe and сал^вез ccirpcnenta Рисунок 8 — Классификационный указатель тезауруса, организованный по тематическим полям, с дополнительной информацией — отношениями SN. UF. RT 12.2.6 О тображ ение л о л и и е р а р х и че с ки х о тн ош ен и й 12.2.6.1 Стандартное обращение с полииерархическими отношениями {см. 10.2.5) показано на рисунке 5. где термин «underwater cameras» имеет два вышестоящих термина «special purpose cam ­ eras» и «diving equipment». Следовательно, «underwater cameras» появляется в двух позициях фасета 60
ГОСТ Р 7.0.91— 2015 оборудования на рисунке 6. Если имеются еще и нижестоящие термины, то они также должны быть указаны в обеих позициях. 12.2.6.2 В классификационных и иерархических указателях печатного тезауруса, объем которых строго ограничен, ввиду того, что для полииерархичесхих терминов требуется много места, может быть принято иное решение. А именно, термину разрешается иметь глубокую иерархию нижестоящих терми­ нов. и. кроме того, длинное лексическое примечание, несколько синонимичных аскрипторов и ассоции­ рованных терминов. Как показано на рисунках 6 и 7. для такого термина можно выбрать одно основное местоположение, а в других позициях показывать сокращенную информацию. Например вариант с тер­ мином «underwater cameras» на рисунке 8. 12.2.6.3 Компьютерная выдача должна позволять пользователям просмотр всех отношений полииерархического термина при каждом появлении. 12.3 П редставл ение и оф о р м л е н и е м н о го я з ы ч н ы х те за ур усо в Раздел 12.3 опущен. В Российской Федерации вопросы многоязычных тезаурусов могут регули­ роваться по И11. 12.4 В о п р о с ы я з ы к о в и ко д и р о в к и с и м в о л о в Раздел 12.4 опущен. В Российской Федерации вопросы многоязычных тезаурусов могут регули­ роваться по И 11.13 Управление разработкой и ведением тезауруса 13.1 П р о е кти р о в а н и е тезауруса 13.1.1 О продоленио целей Разработка тезауруса — это трудоемкая сложная работа, предполагающая долгосрочные обяза­ тельства. поэтому необходимо обосновать целесообразность такой разработки. Следовательно, пре­ жде чем будут затрачены значительные сродства и время, должны быть четко определены цели работы и даны ответы на следующие вопросы: a) кто и для чего будет использовать тезаурус; b ) будет ли разработчик ограничен условиями сущ ествующего программного обеспечения, с кото­ рым он должен работать: c) насколько глубокими должны быть знания пользователя о предметной области тезауруса и в вопросах использования тезаурусов. Различные категории пользователей (руководители верхнего уровня, персонал поддержки инфор­ мационных технологий или предполагаемые конечные пользователи) предполагают разные варианты того, каким тезаурус будет и, как он будет работать. В качестве ключевого шага к обеспечению успеш­ ной командной работы, положение о целях создания тезауруса должно быть согласовано со всеми заинтересованными сторонами. 13.1.2 О продоленио па р а м е тр о в тезауруса Когда будут определены цели, назначения и круг пользователей, должна быть определена сфера охвата предметной области и стиль тезауруса. Должны быть определены следующие свойства: a) будет ли тезаурус использоваться в печатной или электронной форме, или в обеих формах: b ) с помощ ью каких указателей его следует предъявлять пользователю: c) требуются ли дополнительные форматы для включения тезауруса в другое системы, такие как системы поиска и индексирования; d) какой формат необходим для внесения изменений и как часто это потребуется делать. Д олжно быть принято решение о факультативных свойствах, например, решение о том. следует ли различать разные типы иерархических отношений по 10.2.1, вводить ли какие-либо пользователь­ ские отношения (см. 10.4), показывать ли в выходных формах метки узлов и важно ли сохранять дан­ ные определений, источников и дат работы с тезаурусом. На более детальном уровне должны быть проработаны соглашения относительно использования единственного/множественного числа существительных, правописания и заглавных букв. Может ока­ заться полезным рассмотреть практические ограничения, такие, как максимальная допустимая длина 61
ГОСТ Р 7.0.91— 2015 термина, круг необходимых знаков диакритики и специальных символов, и требуется ли ограничить число уровней иерархии. 13.1.3 О пределение и н во н та ря р е с у р с о в 13.1.3.1 О бщие положения На этапе планирования работ по тезаурусу должны быть определены ключевые ресурсы — пер­ сонал, финансирование, программные средства и словарные ресурсы. Если тезаурус должен быть многоязычным, в бюджет должны быть заложены дополнительные накладные расходы на общение, а также стоимость специализированных программных средств, которые могут понадобиться. 13.1.3.2 Человеческие ресурсы Человеческие ресурсы должны включать: a) руководителя на верхнем уровне менеджмента и. желательно, общ ее корпоративное соглаш е­ ние о проекте тезауруса; b ) интерес и поддержку со стороны пользователей, особенно экспертов по терминологии в ряде разделов предметной области; c) информационных работников, разбирающихся в предметной области и обладающих способно­ стью, а ещ е лучше опытом работы с тезаурусами, которые могли бы принять на себя основную нагрузку в процессе создания тезауруса; d ) поддержку со стороны профессионалов в информационных технологиях, которые способны помочь в установке и адаптации системы управления тезаурусом, в программировании для интегриро­ вания выходных форм тезауруса в системы, где он будет применяться, и в ежедневном обслуживании нормальной работы устройств на рабочем место разработчиков. Если в работе будет участвовать более одного редактора, должно быть проведено такое тщатель­ ное планирование работ, которое исключило бы возможность одновременного конфликтующего ввода данных в одно и то же место тезауруса. Если создается многоязычный тезаурус, то персонал разработчиков и пользователей в идеале должен обладать следующими ниже перечисленными свойствами: - хорошим пониманием каждого из используемых естественных языков; - хорошим знанием предметной области; - хорошим пониманием различия между переводом и установлением терминологических эквива­ лентов для целей информационного поиска. Такие специалисты редки и обычно разбросаны по разным странам. Поэтому важно поддержи­ вать постоянное интенсивное и эффективное общение членов коллектива разработчиков. Должны быть достигнуты соглашения по процедурам и форматам безошибочного обмена структурированными данными. 13.1.3.3 Словарные ресурсы До начала построения тезауруса должны быть изучены имеющиеся словарные ресурсы. Могут оказаться полезными все следующее ресурсы. a) существующие тезаурусы и классиф икационные системы с предметным охватом, полностью или частично совпадающ им с требуемым. Может оказаться экономически выгодным просто адаптиро­ вать имеющийся тезаурус без каких-либо изменений. Однако более частотной является ситуация, когда в зависимости от авторских прав из существующих словарей удается заимствовать и/или адаптировать лиш ь определенную часть. Существующие разработки надо рассматривать как источник решений по структуре и составу терминов; b ) коллекции терминов и часто задаваем ы х вопросов, которые коллеги смогли собрать в ходе своей работы: c) указатели содержания существующих баз данных или другие подобные справочные средства, указывающ ие точки входа в зависимости от тематики материалов. Если существующие близкие по те­ матике базы данных заицдексированы по контрольному словарю, может представиться возможность получить сведения обо всех использованных индексных терминах и о частоте их использования; d ) буфер запросов подходящего сайта, показывающий наиболее часто используемые поисковые термины; с) стандартные справочные средства, такие как словари, терминологии, номенклатуры и энцикло­ педии полезны скорее для подтверждения значений терминов и обоснования иерархической структу­ ры. чем для выбора терминов. 62
ГОСТ Р 7.0.91— 2015 13.1.4 Р аспределение отв е тс тве н н о с ти На ранних стадиях разработки должен быть назначен редактор, который возьмет на себя ответ­ ственность за ведение проекта на всех его этапах, возможно включающее как составление первона­ чальной версии, так и ведение тезауруса в дальнейшем. В зависимости от объема работ в помощь редактору может быть образована редакционная коллегия, а возможно и коллегия рецензентов. Когда редактирование тезауруса соединено с анализом эффективности предметного индексирования по те­ заурусу информационных ресурсов, это дает определенные преимущества. 13.1.5 В ы б о р п р о гр а м м н о го об е спечен и я Хотя тезаурус может быть создан без какого-либо программного обеспечения, такой ход событий не может быть рекомендован. Повышение эф фективности разработки и возможность предотвращения канцелярских ош ибок лежит на пути использования специально разработанной системы управления тезаурусом. Д ля выбора программного обеспечения должен быть составлен перечень требований на основе положений раздела 14 и других соображений. Следует оценить все продукты, имеющиеся на рынке. Если ни один из них не обладает всеми требуемыми свойствами, может оказаться необходимым опре­ деленный компромисс. Если же компромисс невозможен, следует адаптировать к своим требованиям один из существующих продуктов, либо разработать новое программное обеспечение. 13.2 Р анняя с тад ия с о зд а н и я 13.2.1 Как и когда н ачи н ать Поскольку тезаурус создается для поддержки индексирования и поиска в базе данных или другом ресурсе, тезаурус должен быть создан до начала наполнения базы данных, чтобы обеспечить систе­ матичность индексирования. Однако до построения значительной части базы данных бывает трудно решить, какие термины необходимы в тезаурусе. Для того чтобы исключить последующее переиндексирование, хотя бы часть тезауруса должна быть готова заранее. О днако следует предусмотреть не­ обходимость дальнейшего продолжения работы над тезаурусом. Существуют программные средства, позволяющие проанализировать совокупность текстов в тре­ буемой предметной области и выявить значимые слова и фразы с их частотой использования. Некото­ рые программные пакеты имеют возможность скомпоновать выявленные термины в структурирован­ ный формат. Хотя автоматически созданный тезаурус скорее всего не будет соответствовать качеству интеллектуально созданного тезауруса, но как источник идей его можно использовать для ускорения интеллектуального процесса. 13.2.2 С б о р те р м и н о в и п о н я ти й Как отмечено в 5.1. термины в тезаурусе это только представители понятий, на которых основыва­ ется тезаурус. При построении тезауруса конечная цель состоит в сборе и организации понятий, но на практике это достигается сбором терминов и упорядочением их так. чтобы они адекватно представляли требуемые понятия. Предпочтительные источники терминов перечислены в 13.1.4. перечисления а ) — d). Необходимо иметь полный набор литературы, освещающей центральные вопросы разрабатываемой области зна­ ния. Как описано в 13.2.1, для выявления ключевых слов и фраз в текстах может быть использована ав­ томатическая технология. Поскольку сравнительно просто исследовать материал, который уже введен в систему, необходимо, как можно больше внимания уделять выяснению того, что именно потребуется искать пользователям, например, анализировать списки запросов, которые были зарегистрированы справочной службой. При выработке предложений по включению в тезаурус понятий и терминов следу­ ет учитывать и мнение самих пользователей. На начальной стадии нет необходимости принимать решения о правильном представлении по­ нятий. Первоначальная задача состоит в собирании имеющихся терминов с указанием их источника и частотности. 13.2.3 А н а л и з те р м и н о в Еще до ввода в тезаурус собранные термины должны быть рассортированы в систематическом порядке. Если система ведения тезауруса не обеспечивает поддержку этой задачи, то для первона­ чальной сортировки могут быть использованы стандартные программы персонального компьютера, на­ пример, электронные таблицы. При этом, если термины поучены из машиночитаемого источника, то этот процесс выполняется легко и быстро. Когда собранные термины будут записаны в электронных та­ блицах с их источником и частотностью, следует их распределить по предметным областям и фасетам (см. раздел 11) так, чтобы сходные термины со всеми их синонимами и вариантами оказались рядом. 63
ГОСТ Р 7.0.91— 2015 Хотя классиф икационная и фасетная структура, используемая на этой стадии, может быть рудиментар­ ной и не определяет возможную структуру тезауруса, она помогает выработке представления о такой структуре. Главным результатом этой аналитической стадии должен быть список или набор нескольких списков терминов, сгруппированных по темам или фасетам с указанием для каждого термина источни­ ка и частотности. Вооруженный этими данным, редактор имеет возможность начать систематическое построение тезауруса. 13.3 П остро ен и е тезауруса 13.3.1 О с н о в н ы е по ло ж ен и я Термины должны обрабатываться по тематическим/фасетным группам или по иерархиям. Группы синонимов и почти синонимов должны обрабатываться совместно, между ними должны быть установ­ лены отношения эквивалентности. На этой стадии следует аккуратно выбирать термины и их иерархи­ ческие отношения, принимая во внимание возможное дублирование, пересечение, пропуск терминов и необходимую степень подробности. В этом процессе могут быть выработаны и введены лексические примечания к терминам. Лучш е всего, если запоминание даты ввода и формирование идентификатора термина будет осуществляться автоматически с помощью программного обеспечения, и не потребуется вводить их вручную с клавиатуры. Если при предварительном сборе материала окажется, что существует тезаурус, определенная часть которого может быть заимствована, открывается возможность ввести ее непосредственно в ис­ пользуемую систему ведения тезауруса. Это сократит время, особенно если программное обеспечение позволяет ввод структурированных данных с лексическими примечаниями и отношениями терминов. Но при этом необходимо получить разрешение от правообладателей. В некоторые программные продукты можно непосредственно ввести неструктурированные списки терминов. Это сохраняет не так уж много времени, поскольку необходимо еще вводить отношения и проводить тщательную проверку правописания, которое может быть случайно нарушено. 13.3.2 П о с л е д о в а те л ь н о с ть п о с тр о е н и я тезауруса При работе с иерархиями возникает вопрос, строить ли иерархию сверху вниз или снизу вверх. Необходимо иметь обзор верхних уровней, что обеспечит надлежаще сбалансированное тематическое покрытие тезауруса. Использование этого обзора помогает поместить предложения приглашенных спе­ циалистов и пользователей в контекст общей структуры. С другой стороны, работа на более дробных уровнях имеет тенденцию вскрывать аномалии, спо­ собные повлиять на структуру верхних уровней. Наличие множества понятий нижних уровней иерар­ хии, которые не находят подходящего размещения, говорит о необходимости развития соответствую­ щей надструктуры. Полезны обе стратегии построения и их следует применять комбинированно. Сначала д о работы на нижних уроа»*ях нужно подготовить заготовку структуры верхнего уровня. По мере продвижения ра­ боты на нижних уровнях заготовка верхних уровней должна изменяться в соответствии с возникающи­ ми потребностями. Целесообразно работать с группами иерархически связанных терминов, вводя их совместно с отношениями эквивалентности и иерархии. На этой стадии отношения ассоциации не могут быть вве­ дены столь же легко, поскольку термины на другом конце ассоциаций обычно располагаются в другой иерархии, которую ещ е только предстоит разработать. Ассоциативные отношения обычно вводят на более поздней стадии, когда в системе представлен основной массив терминов. При любой последовательности работ следует проводить контроль качества в таких аспектах как полнота, дублирование, правописание, корректный выбор отношений и т. п. 13.3.3 П остро ен и е м н о го я з ы ч н о го тезауруса При построении многоязычного тезауруса могут применяться три подхода. Выбор подхода за­ висит от степени доступности человеческих, временных и ф инансовых ресурсов. Следует также при­ нимать во внимание контекст предполагаемого использования, например, существует ли одноязычный тезаурус в рассматриваемой области, и использовался ли он для индексирования документов, к кото­ рым надо получить доступ. а) Перевод одноязычного тезауруса Перевод является распространенным и сравнительно недорогим путем построения многоязычно­ го тезауруса. Он особенно выгоден, когда документы поискового массива уже были заиндексированы по одноязычному тезаурусу. Однако, если был принят этот подход, язык исходного одноязычного теза­ уруса приобретает статус доминирующ его языка. Процесс перевода порождает в переводном языке 6 4
ГОСТ Р 7.0.91— 2015 множество версий терминов и структур отношений, которые могут не соответствовать культурным и концептуальным ожиданиям коллективов пользователей в языке перевода. b ) Слияние нескольких различных одноязы чны х тезаурусов. Слияние различных одноязычных тезаурусов является сложным процессом. Следует уважать целостность концептуальных и лингвистических систем и согласовывать их так. чтобы каждый язык мог поочередно выступать в роли исходного языка. Однако, поскольку различные тезаурусы обычно демон­ стрируют разные уровни специфичности и предкоординации, этот подход является наиболее трудным с точки зрения перспектив менеджмента. c) Одновременное построение различных языковых версий тезауруса. Этот третий подход дает возможность всем языкам в тезаурусе иметь равный статус. Каждый язык попеременно становится исходным и переводным и может воздействовать на установление иерархи­ ческих и ассоциативных отношений. Работа должна быть организована таким образом, чтобы терми­ нологическое и структурное согласование, требуемое для поддержания межъязыковых соответствий, делалось не всегда на одном и том же языке. Чтобы обеспечить успешный результат, с самого начала надо аккуратно координировать рабочую группу. 13.3.4 П ри вл е чен и е э кс п е р то в и з а и н т е р е с о в а н н ы х л иц Следует воспользоваться следующими возможностями для привлечения к работе на разных ста­ диях других лиц. a) Специальную терминологию иногда трудно охватить, и она может иметь неожиданные оттенки смысла. Но тот, кто хорошо знает специальную область, может легко проверить, является ли выбран­ ная терминология корректной и правильно ли установлены отношения. Если термины используются неприемлемым для пользователей-экспертов образом, то тезаурусу нелегко будет получить призна­ ние. Следовательно, было бы правильно привлечь экспертов к проверке в ходе разработки тезауруса. Однако, как правило, термины имеют более чем одно значение, и значение, удовлетворяющее одного эксперта, может не получить одобрения другого. Более того, поскольку понятие, наиболее полезное для поиска информации, может иметь значение слегка более широкое или более узкое, чем термин, представляющий его. некоторые эксперты не смогут смириться с подобной неточностью. Привлека­ емым экспертам должна быть хорош о поставлена задача, разъяснен порядок работы и условности контрольного словаря (см. раздел 4). Разработчик тезауруса должен быть готов направлять экспертов и помогать по формированию предложений. b ) О дном у человеку трудно с первой ж е попытки принять все правильны е решения. Большая часть достигается в ходе обсуждения трудных терминов с редакционной коллегией с некоторой до­ лей побочных соображений. Если редакционная коллегия состоит из одного главного редактора, может быть полезным назначить комитет или группу специалистов для проверки разделов работы в процессе выполнения или для оказания консультаций по мере необходимости. Желательно, чтобы этому комите­ ту редакционной проверки были бы представлены на одобрение все элементы тезауруса, прежде чем он будет издан. c) Привлечение к делам время от времени старших руководителей и других заинтересованных лиц может способствовать дальнейшему финансированию, принятию и внедрению конечного продукта. d) Привлечение пользователей может сильно увеличить закупку продукта. Люди, участвовавшие в работе, в большей степени склонны применять ое на деле. e) Привлечение с самого начала экспертов на всех языках многоязычного тезауруса значительно улучшат перспективы его использования пользователями разных языковых сообществ. 13.4 П р е д и сл о в и е к те заур усу Все тезаурусы должны содержать подробное предисловие, которое ясно отражает цели тезауру­ са. а также зачем, как, кем тезаурус разработан. Должны быть освещены следующие вопросы: a) охватываемая предметная область (области) с указанием ядерной зоны и периферийных зон: b ) языки, на которых представлен тезаурус; c) подтверждение, какому национальному или международному стандарту соответствует разра­ ботка; d) смысл всех соглашений, сокращений и пунктуационных знаков, используемых нестандартным способом; e) общее число терминов с отдельным указанием дескрипторов и аскрипторов; 0 правила выбора понятий, включая выбор сложных понятий; д) принятые правила выбора формы дескрипторов, включая ссылки на пособия, которым следо­ вали разработчики, и правила разрешения их противоречий: 65
ГОСТ Р 7.0.91— 2015 h) последовательность расположения и желательно указание, какому национальному или между­ народному стандарту она соответствует: i) указание политики обновлений, включая частоту, сроки и порядок обновлений, а также наимено­ вание и адрес ответственного органа, которому нужно направлять замечания и предложения; j) ссылки и рекомендации в адрес источников, использованных для составления и проверки теза­ уруса. Эти пункты по возможности нужно проиллюстрировать примерами и определениями технических терминов, использованных в предисловии. Если тезаурус предназначен для какой-либо отдельной системы или программы, предисловие должно содержать указание о том, как тезаурус будет действовать в данном контексте. 13.5 Р асп ро стр ан ен и е тезауруса 13.5.1 И н те гр ац и я с э л е ктр о н н о й си сте м ой Должны быть предусмотрены потребности людей, использующих тезаурус как для индексирова­ ния, так и для поиска. Удобнее всего, когда тезаурус со всеми его терминами, отношениями, лексиче­ скими примечаниями полностью интегрирован с функциями индексирования, поиска и просмотра, как указано в 16.3. Некоторые системы индексирования иУили поиска имеют встроенный модуль ведения тезауруса. Если именно он использовался для разработки тезауруса, то не требуется никакой импорт/экспорт, и не нужна никакая специальная работа для этого. Однако, если интегрированная система не имеет механизма экспорта тезауруса в стандартный формат, могут возникнуть трудности при необходимости перейти на другую систему или сделать такой ж е тезаурус для другого применения. 13.5.2 Э ле ктр онная пу б л и ка ц и я Тезаурус может быть представлен как отдельный продукт, не связанный с каким-либо приложени­ ем. Электронный тезаурус можно распространять на CD-ROM. на сайте в Интернете или в локальной сети. Соответствующие ф ункции просмотра описаны в 16.3. Даже если тезаурус опубликован в сети без привязки к специальному приложению, его можно использовать для консультаций в реальном времени при проведении поиска в той же сети. Чтобы упро­ стить эту задачу, нужно тезаурус представить в формате XML доступным в качестве «namespace». В XM L некоторые символы (а именно < > & ' « ) имеют ограничения на употребление. По возмож­ ности их не следует использовать в тезаурусе (см. 6.4.2). Если же они необходимы пользователям (как в случаях «Boyle's Law. wom en's right»), то система ведения тезауруса должна их кодировать в выходной форме XM L так. как изложено в стандарте XML (54]. (55). 13.5.3 О гр ан и чен н о е ра спр о стр а н е н и е п е ч а тн ы х ко п и й Тезаурус можно предоставлять для ограниченного распространения в печатных копиях при сле­ дую щ их условиях: a ) полноформатный вывод с печатающего устройства системы ведения слишком дорог; b ) большинство пользователей предпочитают электронную версию: c) тезаурус предназначен исключительно для собственного использования. d) редакционная коллегия считает распечатку удобной для визуализации и подготовки замечаний. В действительности такая функция является просто расширением обычной практики распечатки отчетов о состоянии тезауруса по мере надобности. Она обладает гибкостью дизайна выходных форм в соответствии с конкретными потребностями, например, включать и исключать служебные поля, выпу­ скать подмножества тезауруса для отдельных групп пользователей, выбирать различные стили оф орм­ ления и т. п. Такие отчеты можно рассылать пользователям в электронной форме, оставляя вопрос о копировании на решение пользователю. 13.5.4 О б ы ч н о е издание Хотя обычное издание уже в значительной мере уступило место электронному издательству, оно может оказаться полезным, если того требуют пользователи. Печатная форма имеет некоторые пре­ имущества перед электронной, особенно в тех случаях, когда доступ к компьютеру ограничен. Кроме того, она может привлечь внимание к тезаурусу новой важной аудитории. Когда организация принимает решение разработать и издать новый тезаурус, об этих планах должно быть объявлено в профессиональном журнале по соответствующей сфере деятельности, а также через соответствующие электронные дискуссионные форумы. 66
ГОСТ Р 7.0.91— 2015 13.5.5 Д е п о н и р о в а н и е в об м е н н о м ф онде Копия первого и всех последующих изданий опубликованного тезауруса должна быть депониро­ вана в соответствующей национальной депозитарной библиотеке. Если тезаурус составлен на англий­ ском языке или включает английский язы к в качестве одного из своих языков, копия тезауруса также должна быть депонирована в Североамериканском обменном фонде в Торонто1». 13.5.6 Каталоги те за ур усо в в Интернете Списки тезаурусов размещены на некоторых сайтах в Интернете. Некоторые из этих сайтов объ­ являют о разработке тезауруса до его публикации. Кроме того Инициатива метаданных Дублинского ядра (DCMI) поддержала несколько проектов разработки реестров метаданных, включая «реестр тер­ минологии». предназначенный в том числе для контрольных словарей [29]. При публикации или до того разработчик должен послать полные данные о тезаурусе, будь он электронным или печатным, адми­ нистратору подходящих сайтов или регистрационных служб. Если же электронный тезаурус доступен через Интернет, такая служба может давать прямую гиперссылку на него. 13.6 О б но в л е н и я 13.6.1 О бщ ие по ло ж ен и я Работы по ведению тезауруса должны продолжаться в течение всего жизненного цикла продук­ та. Необходимо отслеживать изменения как в терминологии, так и в составе базы данных или другого ресурса, который обслуживается тезаурусом. Потребность модернизации тезауруса возникает в день его выпуска, если не раньше. Предложения по внесению изменений могут быть наиболее частыми в первые месяцы после его выпуска, поскольку в это время словарь подвергается первому серьезному испытанию. Редакционные процедуры должны быть готовы с самого начала. Хотя внесение изменений важно для того, чтобы тезаурус удовлетворял возникающим требовани­ ям. следует помнить, что каждое изменение нарушает качество ретроспективного поиска (т. е. поиска по материалам, заиндексированным по прежней версии тезауруса). Когда вводят новый термин, по­ является возможность поиска в базе данных материалов с данного момента, но релевантные ресурсы, уже имеющиеся в массиве, не использовали данный термин при индексировании. Если система управ­ ления базой данных обеспечивает автоматическое или полуавтоматическое исправление ретроспек­ тивных записей, изменения в составе дескрипторов могут быть встроены в поисковый массив. Однако другие типы изменений могут в меньшей мере влиять на ретроспективные записи. Следовательно, не­ обходим компромисс между удовлетворением новых требований и поддержанием стабильности. Если тезаурус многоязычный, перед одобрением изменений должны быть рассмотрены их влия­ ния на все языки тезауруса. 13.6.2 С б о р пр ед ло ж ен и й Д олжен быть установлен простой механизм подготовки предложений ото всех пользователей, осо­ бенно от индексаторов. Этот механизм может быть представлен формуляром, электронным или бумаж­ ным. который приглашает сотрудников вносить необходимые им новые термины и другие изменения с подробным обоснованием. Обоснование включает определения необходимых терминов, ссылки на их употребление в литературе, синонимы и альтернативные способы выражения, связи с терминами, при­ сутствующими в тезаурусе и объяснение, почему это изменение необходимо. Индексаторы часто обнаруживают необходимость в новом термине в процессе ввода документов в базу данных. Поскольку при этом может не хватать времени для консультации с редактором, пред­ лагаемый термин заявляется как «кандидат в дескрипторы». Кандидаты становятся доступными для поиска, но не проходят проверку на пригодность для тезауруса. Редактор тезауруса должен регулярно проверять все предложенные кандидаты и принимать решение об их вводе в систему ведения тезау­ руса со статусом «кандидат». Когда кандидат будет одобрен, производится соответствующая коррек­ тировка его статуса. Неодобренные кандидаты должны быть исключены из системы или исправлены подходящим способом. 13.6.3 П роцед ура пересм отра Периодически редактор тезауруса должен просматривать все полученные предложения и канди­ даты в дескрипторы. Кроме того он должен отслеживать частотность дескрипторов в обслуживаемых 1) Subject Analysis Systems Collection (SAS. Коллекция систем тематического анализа) поддерживается груп­ пой The Inforum: Факультет информации Университета Торонто. 140 St. George Street. Toronto. Ontario M5S 3G6, Canada. Подробности см. на http://discover.library.utoronto.ca/general-information/libraries/FISINFORUM/. Фонд SAS включен в каталог университета. 67
ГОСТ Р 7.0.91— 2015 базах данных. Каждый, используемый слиш ком часто или слишком редко, рассматривается как канди­ дат на исключение из тезауруса или на какое-либо изменение. Для ведения также используются запросы пользователей. Термины, использованные в неудачных поисках, должны быть изучены на предмет пригодности в качестве дескрипторов тезауруса. Слишком обильное использование термина в запросах может свидетельствовать о том. что его нужно разделить по разным понятиям, а неиспользование, что нужно исключить из тезауруса. М ногие современные поисковые системы предлагают свободный текстовый поиск ресурсов и со­ храняют буфер транзакций, включающ ий термины, введенные пользователями. Такой буфер может служить как действенное руководство по предпочтениям и привычкам пользователей, указывающее, например, какой раздел предметной области требует более детальной разработки, и какие понятия чаще требуют поиска — простые или сложные. Иногда буфер показывает, что нужно ввести допол­ нительный аскриптор к уже существующему дескриптору, или даже заменить дескриптор тезауруса синонимом, который используется чаще. Буферы транзакций должны полностью использоваться при ведении тезауруса. Должны быть рассмотрены все предложения, термины пользователей и кандидаты индексаторов. Тщательное расследование может показать, что предложенные понятия уже присутствуют в тезаурусе под другим именем. Предложения чаще всего требуют введения нового дескриптора, но при этом ред­ ко принимают во внимание другие возможности и необходимые дополнительные действия, такие как введение нового ссылочного термина, изменение лексического примечания, добавление иерархиче­ ских или ассоциативных отношений и т. п. Могут также требовать неприемлемого увеличения уровней иерархии. Редактор должен рассмотреть предложение в полный и согласованный набор необходимых изменений, прежде чем дать согласие по предложению. Если тезаурус — многоязычный, предложе­ ние должно быть рассмотрено с соответствующей адаптацией во всех языках. В малых предприятиях все решения вынужден принимать один редактор. О днако следует консультироваться с пользователя­ ми. особенно если тезаурус используется в разных приложениях. Бюллетень со всеми поступившими предложениями следует разослать по пользователям и рецензентам, представляющим все основные приложения, с предложением дать свои замечания. Рецензенты должны регулярно собираться или поддерживать общ ение в электронном форуме. После полного изучения и оф ормления изменений, требуемых предложениями, редактор должен представить их коллегии рецензентов. Прежде чем при­ нять окончательное решение следует изучить последствия изменений для всех приложений тезауруса. 13.6.4 В и д ы и зм енени й Хотя главное внимание при ведении тезауруса делается на добавлении новых терминов, не сле­ дует пренебрегать и другими видами изменений. Встречаются следующие виды изменений, перечис­ ленных в пунктах от а) до п): a ) добавление нового понятия, представленного новым дескриптором; b ) добавление нового аскриптора в качестве входного термина; c) изменение дескриптора или аскриптора: d) изъятие дескриптора; в) перевод дескриптора в статус аскриптора. синонима другого существующего дескриптора: f) изъятие аскриптора; д) передача статуса предпочтительного термина с дескриптора на один из синонимичных ему аскрипторов; h) добавление или изменение лексического примечания, определения, исторического или редак­ торского примечания; i) слияние двух понятий в одно; j) разделение понятия на два или более, что иногда может сопровождаться преобразованием аскрипторов в дескрипторы; k) изменение иерархической структуры; l) перенос ветви иерархии с одного места в другое; пт) добавление или удаление ассоциативных отношений; п) почти любая комбинация изменений по пунктам от а) до т ) , которая может иногда повлечь раз­ личные изменения в различных языках многоязычного тезауруса. Например, добавление аскриптора в одном языке может требовать, а может и не требовать добавления аскриптора в другом языке. Важно чтобы критерии принятия редакционных решений сохранялись при анализе новых пред­ ложений и включали критерий удобства для пользователей. Особенно внимательно нужно относиться к исключению терминов, особенно если они использовались в прошлом. Вместо исключения дескрип- 68
ГОСТ Р 7.0.91— 2015 тора его статус может быть понижен до аскриптора со ссылкой на соответствующий дескриптор и с от­ меткой в историческом примечании, до какого времени термин имел прежний статус. Соответствующий дескриптор также должен иметь в историческом примечании отметку об этом изменении. При сложных изменениях историческое примечание может составлять редактор, но даты ввода и изменения данных должны записываться автоматически. Аналогичным образом идентификаторы но­ вых терминов должны также присваиваться автоматически. Изменения в многоязычном тезаурусе должны вводиться одновременно во всех языках. 13.6.5 И нф орм ация о б и зм ен ен и ях 13.6.5.1 Общие положения Механизм распространения сведений об изменениях должен быть продуман до издания тезау­ руса. Информация об изменении может быть сложной, особенно если атрибуты и отношения одного термина претерпевают несколько различных изменений. При прямой рассылке новых терминов поль­ зователям будет трудно понять, какому месту в иерархии соответствуют новые термины, особенно если необходимо рассылать различные виды указателей. Предполагая, что простой список новых терминов достаточен для пользователей, можно прийти к ситуации, что новые термины не будут использоваться, поскольку они но будут полностью интегрированы в механизм просмотра тезауруса. Простейший путь распространения информации об изменениях — это рассылка новой версии тезауруса. Если это делать электронными средствами, цена сводится к минимуму. Более того, это ис­ ключает обмен сведениями о характере изменений и гарантирует, что все пользователи будут иметь до­ ступ к единой авторитетной версии словаря при выборе терминов. К тому же эта процедура позволяет сообщ ить сведения об изменениях одновременно персоналу и компьютерной системе. 13.6.5.2 Изменения, дружественные к читателю Д ля конечных пользователей информация об изменениях может иметь форму алфавитного спи­ ска. дополненного классифицированным или категоризированным списком, в которых указаны все но­ вые добавленные дескрипторы, измененные дескрипторы, новые входные термины. В этой информа­ ции должно быть приглашение к ответному сообщению. В зависимости от пожеланий пользователей список может иметь разную форму сложности. Некоторые пользователи могут иметь желание полу­ чать полную информацию о каждом новом или измененном термине и отношении. Электронные фор­ мы могут информировать об изменениях выделением их в тексте цветом или подчеркиванием. Всем пользователям должно быть предложено отмечать наиболее важные изменения, такие как введение и исключения терминов в их бумажном экземпляре тезауруса, если они им пользуются. Д ля печатного тезауруса это облегчается изданием его в форме разьемных листов, а информация об изменениях включает новые листы издания, подлежащие замене. 13.6.5.3 Изменения для компьютеров Если копия тезауруса встроена в другую компьютерную систему, то простейшим путем будет пол­ ная замена его на новую версию, в которой уже сделаны все изменения. Однако это может быть не­ приемлемо. если в системе тезаурусные термины связаны с другими данными, такими как библиогра­ ф ические записи или отображения на другие словари. Для таких систем должны быть предоставлены как минимум отчеты или файлы изменений всех элементов, атрибутов и отношений (см. раздел 15). Для поддержки этих требований система ведения тезауруса должна быть способна записывать дату последних изменений всех элементов, атрибутов и отношений и по этой дате выдавать сведения об из­ мененных данных. Альтернативная технология может предусматривать создание внешнего буферного файла, в котором записываются все произведенные добавления, исключения и изменения элементов, атрибутов и отношений. Для импортирующей системы некоторые типы изменений могут быть суще­ ственными. а другие — не существенными. По этой причине некоторые системы ведения тезауруса записывают тип изменения и само изменение отдельно. Это позволяет импортирующей системе отде­ лять простые изменения (например, орфографии) от сложных (например, разделения одного понятия на два). Поскольку стандартная классиф икация изменений не существует, ее следует разрабатывать для каждого случая заново. 13.6.5.4 Следствия для редакционного хозяйства Важность поля даты последних изменений уже подчеркивалась в связи с представлением из­ менений для компьютеров. Оно также иногда необходимо (наряду с датой ввода) в данных для визу­ ального представления изменений. Эта дата должна вводиться в стандартном формате ГП Т -М М -Д Д (например, 2004-03-17) в соответствии с (12). В случае изменения написания термина также жизненно необходим идентификатор термина. (В отсутствие идентификатора компьютер не имеет способа уста- 69
ГОСТ Р 7.0.91— 2015 новить. какой термин должен быть заменен на термин с новым написанием). Все упомянутые атрибуты должны записываться автоматически во избежание человеческих ошибок. Другой жизненной необходимостью редакционных групп является список исключенных терминов. Однако не многие системы ведения тезауруса имеют механизм запоминания выдачи списка удаленных терминов. Поэтому редактор сам должен вести такой список, включающий термины и их идентифика­ торы.14 Указания по программному обеспечению для ведения тезауруса 14.1 О бщие полож ения Программное обеспечение для ведения тезауруса должно быть способно управлять, импортиро­ вать и экспортировать данные согласно положениям раздела 15. О но должно быть выбрано на основе требований имеющегося проекта (см. 13.1.5). Обычно от него требуется наличие характеристик и функ­ ций. описанных в 14.2 — 14.10, но могут быть исключения. Также иногда требуются дополнительные свойства. Например, полезно, если программное обеспечение обладает способностью одновременно­ го ведения двух и более тезаурусов. П р и м е ч а н и е — В этом документе не идет речь о требованиях, обычно предъявляемых к программному обеспечению в цепом, таких как хорошее документирование, обучение и другие формы поддержки, общая друже­ ственность интерфейса к пользователю и приемлемая цена. 14.2 О гр ан и чен и я п о об ъ е м у и сим вол ам Программное обеспечение не должно накладывать следующих ограничений. a) Не должно быть ограничений по числу терминов в словаре, которые бы препятствовали его расширению до необходимых размеров. То же самое относится к другим элементам — меткам узлов, примечаниям. b ) Ж елательно, чтобы не б ы ло ограничений на длину терминов, меток узлов, примечаний. Хотя довольно редко длина терминов бывает более 40 знаков, но в некоторых случаях может потребоваться 100 или более знаков. c) Не должно быть ограничений на допускаемое число уровней иерархии, а также на число иерар­ хических. ассоциативных и синонимических связей у дескрипторов. d) Программное обеспечение должно работать со всеми символами Универсального набора знаков по ИСО/МЭК 1-646 [13] в текстах элементов тезауруса (включая термины, метки узлов и примечания). e ) Редактор должен иметь возможность свободно выбирать верхний или нижний регистр литер при необходимости. f) Для многоязычных тезаурусов не должно быть ограничений на число языков тезауруса. Должна предусматриваться возможность задавать все текстовые элементы (такие как термины, метки узлов и примечания) на каждом из языков тезауруса. 14.3 О тнош ения м еж ду те р м и н а м и и м ож ду по н я ти я м и Программное обеспечение должно удовлетворять требованиям перечислений а) — i). приведен­ ным ниже. П р и м е ч а н и е — Там, где в настоящем разделе указываются английские метки ВТ. NT. RT, USE, UF, SN. в других языках должны применяться соответствующие национальные метки (см. таблицу 2 в разделе 3). a ) Не может быть в тезаурусе совпадающих терминов. При вводе термина, совпадающего с уже существующим, он должен быть исключен или выдан редактору для изменения, объединения, добав­ ления квалификатора или для другого способа исправления. Алгоритм сравнения для выявления ду­ блей должен иметь возможность такой настройки, чтобы, например, типографские различия, такие как курсив или выделение заглавными буквами, не принимались в расчет при выявлении дублей. b ) Должны поддерживаться базисные отнош ения BT/NT, RT/RT. USE/UF, как это описано в раз­ делах 8 и 10. c) Должны поддерживаться отношения взаимности, описанные в разделах 8 и 10. Если понятие А имеет отношение ВТ с понятием В, то понятие В должно иметь отношение NT с понятием А и наоборот. Если понятие С имеет отношение RT с понятием D. то понятие D должно иметь также отношение RT с понятием С. Если термин Е имеет отношение USE с термином F, то термин F должен иметь отношение 70
ГОСТ Р 7.0.91— 2015 UF с термином F и наоборот. Желательно, чтобы программное обеспечение создавало обратное отно­ шение автоматически в ответ на введение редактором исходного отношения. Как минимум программ­ ное обеспечение должно выдавать предупреждение о наличии невзаимных отношений. d) Когда термин или понятие изменяется или исключается, то это изменение должно автомати­ чески распространяться на все случаи, где этот термин или понятие связаны с другим термином или понятием любым отношением — ВТ. NT. RT. USE. UF. При исключении термина или понятия все связи к нему или от него должны быть изъяты. Однако если исключение термина, понятия или отношения оставляет какое-либо понятие без по крайней меро одного вышестоящего или без предпочтительного термина (дескриптора), должно быть выдано соответствующее предупреждение редактору. e) Не должно быть ограничений на число отношений, которые имеют данное понятие или де­ скриптор. Так одно понятие может иметь любое число отношений любого типа — ВТ, NT. RT. а каждый дескриптор — любое число аскрипторов. П р и м е ч а н и е — Некоторые комбинации недопустимы (см. перечисления д) ниже). 0 Должна быть предусмотрена возможность вводить пользовательские взаимные отношения, на­ пример, для того, чтобы различать различные типы отношений ВТ/NT или различные типы ассоциатив­ ных отношений. д) Проверка правильности данных должна предотвращать ввод недопустимых комбинаций отно­ шений, приведенных ниже; - если два термина или понятия уже связаны одним из базовых отношений, никакое другое базо­ вое отношение между ними введено быть не может: - если понятие А имеет отношение ВТ с понятием В. то никакое понятие, стоящее в иерархии ВТ над понятием В. но должно получать отношений ВТ. NT. RT. UF с понятием А; - непредпочтительные термины (аскрипторы, т. е. термины с отношениями USE. USE+ к другим терминам) не могут иметь отношений ВТ. NT, RT, UF; - в случае отношений USE+ программное обеспечение должно проверять, что это отношение яв­ ляется по крайней мерс тернарным.1* h) Не допускаются отношения терминов и понятий к самому себе, т. е. все базовые отношения нерефлексивны. i) Для каждого понятия допускается иметь только один предпочтительный термин (дескриптор) в каждом из языков тезауруса. 14.4 П рим ечание к терм инам и по н я ти я м Программное обеспечение должно поддерживать примечания следующим образом: a) Должен поддерживаться ввод лексических примечаний к каждому понятию. П р и м е ч а н и е — Лексические примечания могут иметь произвольную длину. b ) Если прим ечание любого типа имеет ссы лку на другой термин или понятие в словаре, жела­ тельно, чтобы программное обеспечение обеспечивало маркировку или гиперссылку к записи соответ­ ствующего термина или понятия. Программное обеспечение должно проверять действенность ссылки. c) Должно поддерживаться формирование автоматических примечаний к терминам и понятиям, например, примечаний об изменениях и редактировании. 14.5 К о д ы и о б о зна чен и я Программное обеспечение должно поддерживать предметные категории, коды и обозначения следующим образом; a) должна быть предусмотрена возможность присвоить по крайней мере один код. номер, или другое обозначение каждому термину, понятию, понятийной группе и ряду (см. 12.2.2 и 15.2.18). Жела­ тельно, чтобы поддерживалось присвоение нескольких обозначений. b ) Д олжна бы ть возможность присвоить по крайней мере одну предметную категорию каждому термину, понятию, понятийной группе и ряду (см. 12.2.2 и 15.2.18). c) Должна быть возможность присвоить уникальный идентификатор каждому термину и каждому понятию. Желательно, чтобы присвоение идентификаторов было автоматическим при вводе каждого 11 Имеется по крайней мере два термина, на которые ссылается отношение USE+ (прим, переводчика). 71
ГОСТ Р 7.0.91— 2015 нового термина и понятия и производилось таким образом, чтобы не появлялись дубли идентификато­ ров существующих или исключенных терминов и понятий. d ) Д олжна быть возможность вывести словарь в последовательности любого типа обозначений, кодов и идентификаторов. 14.6 М етки у з л о в Программное обеспечение должно поддерживать метки узлов следующим образом: a ) метки узлов не рассматриваются как термины или понятия тезауруса (см. раздел 11. рисунок 4) и следовательно не связаны требованиями к отношениям п. 14.3. Более того, они не обязаны быть уни­ кальными и не подлежат контролю на дублирование, описанному в п. 14.3, перечисление а); b ) программное обеспечение долж но иметь средства показать на выдаче метку узла в правиль­ ном положении относительно родительских терминов и относительно терминов верхнего уровня, кото­ рые имеются у данного фасета или ряда. 14.7 С татус я з ы ко в Программное обеспечение должно позволять всем языкам многоязычного тезауруса иметь рав­ ный статус и избегать преимуществ одного языка по сравнению с другими. Например: a ) Число аскрипторов. приписанных какому-либо понятию в одном языке, не должно зависеть от числа аскрипторов в другом языке, и аскрипторы в различных языках не обязаны соответствовать друг ДРУГУ- b ) Наличие лексического прим ечания к понятию в одном языке не долж но требовать наличия со­ ответствующего лексического примечания в другом языке. 14.8 И м п о р т/э кс п о р т д а н н ы х Необходимо, чтобы была возможность экспорта и импорта данных таким образом, чтобы тезаурус не был ограничен тем программным обеспечением, в котором он был первоначально создан. Форматы импорта/экспорта обсуждаются в разделе 17. Должны быть предусмотрены следующие механизмы: a) Полный вывод данны х существующего словаря, включая термины, примечания, метки узлов, стандартные отношения терминов и понятий и все другие атрибуты терминов, понятий и меток узлов. — При выводе должны сохраняться все упомянутые особенности, а также все используемые сим ­ волы Универсального набора знаков. b ) Ф ормирование отчетов и вывод словаря, включая все термины, примечания, обозначения и стандартные отношения между терминами и понятиями. — Должна существовать возможность вывода подмножеств, определяемых редактором, напри­ мер. таких как только непредпочтительные термины (аскрипторы) или только предпочтительные терми­ ны (дескрипторы) с их лексическими примечаниями и нижестоящими связями. c) Пакетное редактирование. — Должна существовать возможность редактирования или исключения пакетов записей одно­ временно. предпочтительно с использованием собственных возможностей программного обеспечения. Если ж е это невозможно, то должны использоваться функции базовой системы ведения баз данных или процедура вывода избранных записей, редактирования их вне тезауруса и повторного импорта в тезаурус. Эта техника может использоваться, например, для ввода одинаковых исторических справок или отношений к пакету терминов или, может быть, для отображения терминов на другой словарь. Если применяется этот метод, должна также производиться обычная проверка целостности данных. d ) Экспорт всех терминов, которые были изменены после некоторой даты, с их полными статьями или без них. — Должна быть доступна возможность выбора только определенного типа изменений, например, только новые термины или термины на одном из языков, или включая все термины, в которых измене­ ны какие-либо атрибуты и отношения. Также должна бы ть возможность получить список всех терминов, исключенных с определенной даты. e ) Вывод указателей тезауруса, либо на экран, либо на печать. — Должна быть возможность выбора между различными последовательностями и формами ука­ зателей. из которых наиболее важен алфавитный указатель, но также настоятельно рекомендуется иерархический или классиф икационный указатель. 72
ГОСТ Р 7.0.91— 2015 0 Когда родственные термины в алфавитном, иерархическом или классиф икационном указателе представляют в алфавитном порядке, может быть использовано соглашение о расположении «слово за словом», либо «буква за буквой». Такое же соглашение должно применяться ко всему тезаурусу. (Объ­ яснение этих соглашений описано в [7]: см. пример ниже). Однако должна быть возможность нарушать эту последовательность в случае необходимости (см. раздел 11).Пример — Последовательность «слово за словам»Последовательность «буква за буквой»National insuranceNational insuranceNational parksNationalityNationalityNational parks 14.9 Р ед акторская н а в и га ц и я и п о д д ер ж ка Программное обеспечение должно поддерживать следующие редакторские функции. a) Редактор тезауруса должен иметь возможность получить все детали любого термина (и соот­ ветствующего понятия) путем прямого обращения к этому термину, предпочтительно, путем ввода не­ которой части термина при том. что программное обеспечение выберет все термины, содержащие эту часть. b ) Редактор тезауруса должен иметь возможность получить все детали любого термина (и соот­ ветствующего понятия) путем просмотра связей термина/понятия. Желательно, чтобы функция про­ смотра позволяла редактору начинать со списка терминов верхнего уровня, но при отсутствии этой возможности редактор должен иметь возможность переходить от любого термина к записям любого связанного с ним термина отношениями NT. ВТ. RT. USE. UF. c) Редакторский интерфейс должен позволять просмотр полного иерархического контекста терми­ на или понятия одновременно с самим термином со всеми его примечаниями, кодами и отношениями, представленными для редактирования. d) Должна быть возможность легкого перемещения понятия (вместе со всеми его нижестоящими всех уровней) из одной позиции в иерархическом дерево в другую, желательно с помощью перетаски­ вания курсором. e) Редакторские возможности должны включать стандартные функции обработки слов, такие как добавление, изменение и исключение букв без необходимости повторного ввода с клавиатуры всего поля. Необходима функция проверки правописания. 0 Когда редактор предпринимает шаги к исключению термина или понятия, программное обеспе­ чение должно просить подтверждения намерению исключить термин или понятие прежде, чем факт исключения будет совершен. д) Установление нового отношения между двумя терминами или понятиями, уже представлен­ ными в тезаурусе, должно производиться путем навигации и выбора терминов, а не путем повторного набора термина, известного системе. Это необходимо для предотвращения ош ибок и повышения эф­ фективности работы. h) Редактор должен иметь возможность легко переключаться с выдачи на одном язы ке к соответ­ ствующей выдаче на другом языке тезауруса. 14.10 Р ед акц и он н ая б е зо п а с н о с ть Программное обеспечение должно предусматривать следующие меры предосторожности. a) Редакционные изменения должны первоначально производиться в эталонной базе данных, из которой тезаурус периодически выгружается для текущих процессов индексирования или поиска ре­ сурсов. b ) Если эталонную базу данных редактируют одноврем енно два лица, встроенный механизм дол­ жен предотвращать одновременный доступ для изменения одной и той же записи. c) Проверка безопасности по паролю должна предотвращать введение редакционных правок по­ сторонними лицами. d) Желательно, чтобы программное обеспечение предусматривало разные уровни доступа, так чтобы можно было вводить предварительные изменения, которые вводятся в действие после одобрения. 73
ГОСТ Р 7.0.91— 2015 е) Должна быть предусмотрена функция возврата к прежнему состоянию, которая позволяет каж­ дому редактору отменить некоторое количество последних изменений. 0 Должен поддерживаться буфер, позволяющий восстановить базу данных по предыдущей версии. 14.11 С ред ства учета Должна иметься возможность получить отчет о числе терминов с определенными характеристи­ ками, в частности — общ ее число дескрипторов и аскрилторов. Как описано в 13.6.3. должен вестись учет числа использований терминов для индексирования и поиска. Также программное обеспечение тезауруса должно иметь возможность импорта данных об ис­ пользовании. если это не выполняется каким-либо другим средством. Для хранения этих данных может потребоваться одно или более пользовательских полей или атрибутов (см. 15.2.16).15 Модель данных 15.1 О бщие полож ения Этот раздел моделирует структуру данных, которую можно принять за основу построения тезауру­ са, удовлетворяющего указанным выше требованиям ИСО 25964. Для многоязычных тезаурусов, одна­ ко. эта модель данных применима только в случае полной симметричности. Если структуры данных для разных языков различаются, то может понадобиться особая техника отображения, по крайней мере для частей тезауруса, где это различие имеет место. Техника отображения будет рассмотрена в [6]. Схема XM L выведена из этой модели и может быть использована при передаче или приеме теза­ уруса в электронной форме. Настоящая модель представляет логическую структуру, которую необхо­ димо поддерживать, но она не указывает, как должны быть реализованы данные в конкретных компью­ терах. Базовые рекомендации разделов с 5-го по 12-й достаточно просты и требуют только простой модели. Но реализация нескольких факультативных свойств потребует более сложной модели. Для обеспечения успешного обмена тезаурусными данными в большем диапазоне ситуаций важно, чтобы имелся формат, восприимчивый как к сложным, так и к упрощенным тезаурусам. Модель, представленная здесь, включает полный набор возможностей, описанных в разделах с 5-го по 12-й. Некоторые элементы модели показаны как факультативные, и они не требуются при обме­ не тезаурусами, в которых эти элементы отсутствуют. Если программное обеспечение, импортирующее тезаурус, не поддерживает факультативные элементы, оно может их игнорировать, а также принимать подходящие значения по умолчанию (например, нуль) для тех факультативных элементов данных, ко­ торые оно поддерживает, но которые отсутствуют в принимаемом тезаурусе, при этом корректно интер­ претируя остальные элементы. Модель представлена сначала на рисунке 15 с помощью соглашений UML (Unified Modelling Lan­ guage — Унифицированный язы к моделирования) [14]. [15]. [16]. но четко останавливаясь перед описа­ нием поведения тезауруса и методов распределения, которые могут потребоваться в специф икации по установке программного обеспечения. UM L достаточно выразителен и исключает неоднозначности, но поскольку некоторые пользователи могут быть незнакомы с этими соглашениями, в 15.3 дополнительно приведено альтернативное табличное представление. Элементы данных и атрибуты в диаграммах UML и в таблицах данных идентичны по содержанию, хотя некоторые детали отношений не удается ясно вы­ разить в табличном представлении. В случаях сомнений следует обращаться к диаграммам. UML содержит собственные специальные соглашения и термины для моделирования. В настоя­ щем разделе термин «класс» используется в смысле UML для обозначения множества объектов, име­ ющих сходную структуру, поведение и отношения. Также UML придает специальный смысл терминам «строка», «булевский» и «агрегация». Дополнительные сведения об UML можно найти в библиографии по ссылке [16]. где глава 5 — руководство по нотации UML. а раздел 4.5.4 детально описывает семан­ тику. Замечания по модели, имеющиеся в 15.2. относятся как к табличному представлению, так и к диа­ граммам на рисунке 15. 74
ГОСТ Р 7.0.91— 2015 уса ур за те ния рое ст по х ы н н а д ы р у т к у р т с ль де о М - 5 1 к о н у с и Р 75
ГОСТ Р 7.0.91— 2015 15.2 З ам ечания по м одели 15.2.1 С огл аш ения о б и м енах Имена всех атрибутов, включая некоторые элементы данных Дублинского ядра (см. ссылку (17]), которые появляются в модели и в ее схеме XML, следуют «соглашению о верблюдеНижнегоРегистра» (т. е. между словами не делается пробел, а каждое следующее слово в имени (кроме первого) начина­ ется с заглавной буквы). Имена классов UML следуют «соглашению о ВерблюдеВерхнегоРегистра» (т.е. пробелы отсутствуют и каждое слово в имени начинается с заглавной буквы). 15.2.2 С и м в о л ы д л я ассо ц и а ц и й Ромб на диаграммах обозначает «агрегацию», т. е. отношение обладания (has-a отношение). Этот символ используется для указания, что в соответствующей схеме XM L определение объекта включено в родительский объект. Символ треугольника обозначает «генерализацию», т. е. отношение вида к роду (is-a отношение), связывая обобщающий кла ссе его видовыми подклассами, которые наследуют все атрибуты родитель­ ского класса. Обычная ассоциация (без ромба) обозначает отношение типа key/keyref в XML, где каждый эк­ земпляр одного класса содержит ключ ссылки, который связывает его с экземпляром другого класса. Заметим, что схема XM L в действительности не навязывает ограничений key/keyref. Объясняется это тем, что эти ограничения приводили бы к обесцениванию выходных файлов XML, которые содержали бы только фрагмент тезауруса, а не весь тезаурус целиком. 15.2.3 П онятие Каждое понятие в тезаурусе представлено одним дескриптором в каждом языке, и некоторым количеством аскрипторов. Нотация, примечания и родовидовые отношения применяются к понятию в целом, а не к дескриптору как таковому. Каждому понятию может быть присвоен идентификатор. В некоторых системах понятие идентифицируется только самим дескриптором или идентификатором дескриптора, но это делать не целесообразно, поскольку написание терминов может меняться. 15.2.4 И д е н ти ф икатор Классы Thesaurus. ThosaurusConcept. ThesaurusTerm. ConceptGroup — все они имеют уникаль­ ные идентификаторы, которые используются в схеме XML. Идентификатор и значения дат для Thesau­ rusTerm существенны в отношении организации службы обновлений, поскольку, когда меняется напи­ сание термина, преемственность данных сохраняется благодаря сохранению идентификатора в цепи последовательных обновлений. Использование идентификаторов понятий строго рекомендуется для обеспечения совместимости в среде сетевых приложений. 15.2.5 Д а ты Даты создания и изменения строго рекомендуется указывать, несмотря на то что соответству­ ющие элементы данных в некоторых классах являются факультативными. Они должны быть даны в формате П Т Г — ММ — ДЦ в соответствии с [12]. В классе T he sa u ru s имеется альтернатива — исполь­ зовать простой атрибут «date». который будет указывать, когда была создана версия того, к чему этот атрибут привязан. Формат даты необходимо использовать тот же. 15.2.6 В е р си и и их и с то р и я Класс VorsionHistory позволяет по желанию иметь в каждой копии запись о версиях или изданиях, которые были выпущены. Хотя этот класс факультативен и может не понадобиться, если существует только одна версия, но крайне рекомендуется принять его, если версий больше, чем одна. Каждая версия должна быть иден­ тифицирована идентификатором, или датой, или и тем и другим одновременно. Атрибут versionNote используют для указания на природу версии, т. е. создана ли она как обнов­ ление. как фрагмент, как перевод, а также для разъяснения отношений к другим версиям. Атрибут curontVersion — это булевский флажок (да/нет) для указания в каждой версии, является ли она рабочей или она заменена и отброшена. Рабочими могут быть одновременно несколько версий. Атрибут thisVersion — это булевский флажок для указания того, к какой из перечисленных версий эта история прилагается. Решить, какой из вариантов тезауруса является «версией», а какой должен рассматриваться как самостоятельная разработка, не всегда просто. В настоящем контексте управление версиями предпо­ лагает главным образом последовательное обновление исходного тезауруса. Таким образом: а ) обновления, сделанные или принятые первоначальным владельцем/создателем — новые по­ нятия. термины, отношения, примечания, изменения в существующих частях тезауруса, а также специ­ альные издания для различных целей — должны рассматриваться как новые версии данного тезауруса; 76
ГОСТ Р 7.0.91— 2015 b) подмножества тезауруса, даже если они имеют подзаголовок «Сокращенная версия», более целесообразно рассматривать как «понятийную группу» (см. 15.2.18). если они основаны на действую­ щей версии; c) подобным образом языковые версии, при условии что они соответствуют исходной разработке и имеют общую структуру понятий (даже если они могут быть названы «Английская версия», «Француз­ ская версия») должны рассматриваться как принадлежащие той же самой версии тезауруса. С целью обмена данными они должны диф ференцироваться при помощи языкового атрибута класса Thesaurus. d) Всякая разработка, включающая изменения терминов, понятий или отношений, новые пере­ воды. упрощения/сокращения отношений, если ее представляет кто-либо кроме первоначального владельца/создателя. должна идентифицироваться как отдельный тезаурус. Указывать на то. что это от­ дельный тезаурус могут изменения в атрибутах creator, publisher, rights, title класса Thosaurvs. В этих случаях должен быть назначен отдельный идентификатор и дана связь к исходной работе в данных таких атрибутов как relation, description, source. 15.2.7 С татусStatus — факультативный атрибут в ThesaurusConcept и ThesaurusTerm. который указывает на то. является ли данный объект, например, утвержденным кандидатом, замененным или исключенным (см. 13.6.2) . 15.2.8 Н отацияNotation — факультативный атрибут в ThesaurusConcept. NodeLabel и ConceptGroup (см. 12.1.3 и 12.2.5.2) . Если тезаурус использует выразительную нотацию, то. присоединяя ее к меткам узлов, при иерар­ хическом представлении мы получаем возможность указывать узлы в надлежащем месте. Если выразительная нотация отсутствует, то должны быть найдены другие средства, чтобы выво­ дить метки узлов в правильной последовательности, такие как код сортировки, который скрыт от поль­ зователей. В этом случае тот ж е самый атрибут требуется для вывода дескрипторов. Система нотации в ConceptGroup вполне может отличаться от нотации в ThesayrusConcept. и каж­ дая из этих систем может быть представлена без другой. 15.2.9 И сточни кSource — факультативный атрибут в Thesaurus и ThesaurusTerm. который можно использовать для ссылки на источник сведений или на разработчиков словарной статьи. 15.2.10 Ко д ы я з ы ко вLanguage — факультативный атрибут в ThesaumsTerm. Note и NodeLable и обязательный в The­saurus. если он имеется в списке, то он должен быть представлен кодом alpha-2 из (18] или [19]. эти коды при необходимости могут быть расширены дополнительными кодами, описанными в RFC 4646 (20] и перечисленными в регистре подметок (субтэгов) IANA [21] (см. 12.4.5). 15.2.11 Э лементы Д у б л и н с ко го яд ра Класс Thesaurus имеет несколько атрибутов для указания метаданных Дублинского ядра [17] в формате [7]. Наряду с описанными выше атрибутами identifier, date, source, language сюда относятся contributor, coverage, creator, description, format, publisher, relation, rights, subject, title и type. Все они. кро­ ме language и identifier, факультативны. 15.2.12 М н о ж е стве н н о сть д е с кр и п т о р о в Модель позволяет иметь в тезаурусе несколько дескрипторов для обозначения одного и того же понятия, что необходимо в случае многоязычных тезаурусов, где имеется по одному дескриптору на каждом языке. Для одноязычных тезаурусов такая множественность исключается. 15.2.13 К о р н е в ы е (в е р ш и н н ы е ) по ня ти я В разделе 12 кратко упоминается о терминах верхнего уровня («Тор Terms»), т. е. о терминах, представляющих понятия самого верхнего уровня в качестве факультативной составляющей алф авит­ ного указателя и единого списка дескрипторов (см. 12.2.2 и 12.1.3). которая связывает понятие с верши­ ной иерархии, в которой находится понятие. Обеспечивает это класс TopLevelRelationship. Рекомендуется иметь возможность распечатки редакторов со списком вершинных терминов (14.9 перечисление Ь). На это свойство указывает атрибут topConcept, помечающий понятия, которые на­ ходятся наверху иерархии, т. е. не имеют вышестоящих понятий. При импортировании тезауруса это облегчает возможность выбирать все вершинные понятия и строить на них иерархические деревья. 15.2.14 П рим е чан и я В тезаурусе могут присутствовать или отсутствовать примечания любого типа. 77
ГОСТ Р 7.0.91— 2015 Полезны редакционные примечания такого типа: «Проверить этот термин после поглощения ком­ пании» или «Этот термин упомянут в примечании к Понятию X» (см. 5.3) или «Проверить правописа­ ние с экспертом А». Такие примечания и некоторые атрибуты полезны не столько для пользователей, сколько для редакционной деятельности. Нужно сознательно подойти к решению вопроса о том, делать ли примечания видимыми для пользователя. 15.2.15 С с ы л ки пр им еча ни й Связь между Note и Thesaurus Con сер t позволяет в примечании к одному понятию сделать ссылку на другое. Эта возможность особенно ценна для примечаний о значении термина. 15.2.16 П о л ь зо в а те л ь с ки е а т р и б у т ы (C u sto m a ttrib u te s ) Модель включает классы CustomConceptAttribute и CustomTermAttribute для пользовательских по­ нятий и терминов, что позволяет записывать пользовательские данные о терминах и понятиях. Они включаются как отдельные классы, чем обычные атрибуты, для того чтобы администратор системы ведения тезауруса мог устанавливать значение пользовательских атрибутов. Эти классы име­ ют атрибут customAttributeType. который позволяет администратору устанавливать, какой тип атрибута используется. Сами значения при этом обычно берутся из контрольного списка. 15.2.17 М отки р я д о в и у зл о в Хотя все тезаурусы имеют ряды соподчиненных терминов, не всегда требуется моделировать их напрямую, и поэтому соответствующий класс факультативен. Классы ThcsaurusArray и NodeLabel в модели необходимы в особенности для поддержки генерации представлений тезауруса, включающих метки узлов и/или неалфавитные последовательности соподчиненных терминов. (См. примеры на ри­ сунках 4, 6. 7. 8, а также 12.4.3). Атрибут ordered обеспечивает неалфавитный порядок, когда это необходимо. В каждом языке тезауруса у каждого ряда дескрипторов должно быть не более одной метки узла. Некоторые системы организуют выдачу так. как если бы метки узлов были понятиями с отнош е­ ниями к вышестоящим и нижестоящим понятиям. Это делается только с целью визуализации, а не для нормального функционирования иерархических связей. Только понятия могут иметь настоящие связи к вышестоящим и нижестоящим понятиям. 15.2.18 П о н я ти й н ы е гр у п п ы Многие тезаурусы группируют понятия, используя классиф икационную структуру, которая сущ е­ ствует независимо от параллельной иерархии понятий, основанных на отношениях выше-ниже. По­ рождаемые такой классиф икацией группы, как правило, базируются на научных дисциплинах, областях знаний или деловой активности. Их иногда называют «предметными категориями», «тематиками», «до­ менами», «группами» или «микротезаурусами». Настоящая модель все это предусматривает, предо­ ставляя классы ConceptGroup. ConceptGroupLabel, а конкретный тип группировки может быть указан атрибутом conceptGroupType. Обычно между ConceptGroup и входящими в него понятиями тезаурус- ные отношения выше-ниже не устанавливаются. В ConceptGroup могут быть собраны понятия из различных фасетов и иерархий тезауруса, а но­ тация классиф икации по группам может быть совершенно отлична от нотации понятий как таковых. Группы могут иметь подгруппы любого уровня. Каждой группе в каждом языке должна быть присвоена одна словесная метка. Если требуется исключить определенные асхрипторы из данного множества понятий, может ока­ заться необходимым пометить их, что можно сделать с помощью пользовательских атрибутов (см. 15.2.16). 15.2.19 Ф а с е ты Фасеты предусмотрены моделью, но представлены в ней не напрямую, поскольку различные те­ заурусы могут производить фасетный анализ по-разному. Если имена фасетов включены в качестве терминов верхнего уровня, их следует рассматривать как нормальные дескрипторы понятий верхне­ го уровня (см. 15.2.17). В противном случав, они могут представлять собой имена понятийных групп (15.2.18) или метки узлов (15.2.17). 15.2.20 Р оли о тн ош ен и й Классы Equivalence. HierarchicalRelationship. AssociatrvoRelationship имеют атрибут role. Он может быть использован вместе с отношениями С/См, В/Н и А 'А . Его можно также использовать вместе с факультативными отношениями, описанными в п. 10.2.1, а также с пользовательскими отношениями, предложенными в п. 10.4. Каждое появление отношения выражает направление только в одну сторо­ ну. от экземпляра класса «источника» к экземпляру «целевого» класса. Например. «Понятие А имеет вышестоящим понятие В», где роль — «выше». Если дополняющее отношение «Понятие В имеет ни- 78
ГОСТ Р 7.0.91— 2015 жестоящ им понятие А» должно быть выражено, то оно указывается как отдельное появление того же отношения с ролью «ниже». Д ля пользовательских типов отношений текст в атрибуте role должен состоять из (а) имени ро­ дительского типа отношений, следующего за ним (Ь) символа дроби «/» и (с) имени пользовательского типа отношений. При необходимости пользовательские типы отношений могут быть подразделены та­ ким же способом.П р и м е рТ е к с т в а т р и б у т е r o l e к л а с с а H i e r a r c h i c a l R e l a t i o n s h i p м о ж е т б ы т ь о д н и м и з у к а з а н н ы хн и ж е , г д е N T X о б о з н а ч а е т п о с л е д у ю щ и е п о д р а з д е л е н и я М П :N TN T / N T PN T / N T IN T / N T GN T / N T U N T XВ ТB T / B T PВ Т / В ПB T / B T GB T / B T U B T Xи т . д . 15.2.21 Р асщ еп л ен н ы е н о п р е д л о ч ти те л ь н ы е те р м и н ы (а с кр и п то р ы ) Классы SplitNonPreferedTerm и CompoundEquivalenco обеспечивают представление сложных по­ нятий посредством комбинации терминов, как то описано в 8.5. 15.2.22 Р ол ь м еток отн ош ен и й Рисунок 15 показывает отношение между SimpleNonProferedTorm и ProforedTerm с метками USE и UF. которые описаны в разделах 3 и 8 в контексте соглашений человекочитаемого вывода. В контексте обмена данными это отношение может показаться излишним, поскольку все дескрипторы и аскрипторы данного понятия связаны с этим понятием. Однако модель сохраняет некоторую избыточность для об­ легчения обмена данными простых тезаурусов и для того, чтобы облегчить обмен данными обновлений и других специализированных подмножеств тезауруса. Особенность представления отношения USE ...+ состоит в том. что при человекочитаемом пред­ ставлении между USE и + всегда имеется пробел для заполнения его термином (например, «coal mining USE coal + mining»). Но если тэг будет использоваться компьютерами за кулисами сцены, его лучше сжать в следующем виде: «coal mining USE+ coal; coal mining USE+ mining». По этой причине на д иа­ грамме пробел отсутствует. 15.3 Т аб ли чн о е пр ед ста вл ен и е Элементы модели, показанные на рисунке 15. перечислены в таблицах 4 — 9 по пяти классам — Thesaurus, ThesaurusArray. ThesaurusConcept. ThesaurusTerm и Note. Д ругие подчиненные классы по­ казаны внутри этих таблиц. Краткий текст в колонке описания дополнен более распространенными примечаниями в 15.2, а также определениями или терминами, приведенными в разделе 2. Колонка «Тип» показывает тип данных, используя где уместно типы «String» и «Boolean» по UML, «Date» и «Language» по XML и «Class» в случае начального или ассоциированного класса модели. Колонка «Статус» показывает, является ли элемент обязательным и повторяемым согласно таблице 3. Т а б л и ц а 3 — Определение «Статуса» в таблицах4 — 9 C t a iy c З н ачен ие 1 Обязательный, не повторяемый (только одно вхождение) 1 ..* Обязательный, повторяемый (одно или более вхождений) 0 ..1 Факультативный, не повторяемый (нуль или одно вхождение) 0 . .* Факультативный, повторяемый (нуль или более вхождений) 79
ГОСТ Р 7.0.91— 2015 Т а б л и ц а 4 — Атрибуты и ассоциации класса Thesaurus Э лем ен т Тип С татус О п и с а н и еThesaurus Class 1 Тезаурус в целом Атрибуты класса Thesaurusidentifier String 1..* Идентификатор тезауруса в целомcontrbulor String 0..* Персона или организация, внесшая вклад в тезаурусcoverage String 0..* Пространственное или временное покрытие тезаурусаcreator Stnng 0..* Персона или организация, несущая основную ответственность за соз­ дание ресурсаdate String 0..* Какая-либо дата, связанная с тезаурусомcreated String 0..1 Дата создания тезаурусаmodified String 0..* Дата изменения тезаурусаdescription String 0..* Объяснение к тезаурусуformal String 0..* Формат файлов или физический носитель тезаурусаlanguage Language Коды языков, поддерживаемых тезаурусомpublisher String 0..* Лицо, ответственное за публикацию (издание)relation String 0..* Связанная публикация (издание)rights String 0..* Копирайт или другая информация о правахsource String 0..* Ресурс, из данных которого произведен тезаурусsubject String 0..* Термины индексирования, определяющие тематику тезаурусаtitle String 0..* Наименование тезаурусаtype String 0..* Вид словаря, например «thesaurus» Ассоциированные классы класса ThesaurusThesaurusArray Class 0..* Ряд родственных понятий, образующий часть тезаурусаThesaurusConcept Classи * Понятие, входящее в тезаурусConceptGroup Classо .: Группа понятий, выбранных по определенному критерию, например, по значимости в некоторой предметной областиVersionHistory Class 0..* Может подтверждать действенность версии, а также связь с другими версиями тезауруса Т а б л и ц а 5 — Атрибуты и ассоциации класса ThesaurusArray Э лем ен т Ти п С т ж у с О п и са н и еThesaurusArray Class 0 . .* Ряд родственных понятий, входящих в тезаурус Атрибуты класса ThesaurusArrayidentifier String 1 Уникальный идентификатор рядаordered Boolean 1 Метка исгина/ложь. указывающая на необходимость сохранять порядок понятий в ряду. По умолчанию — «ложь»notation String 0 ..1 Символическое обозначение ряда, которое можно использовать для сортировки и визуализации 80
ГОСТ Р 7.0.91— 2015О к о н ч а н и е т а б л и ц ы 5 Элемент Тип Статус Описание Ассоциированные классы класса T h e s a u r u s A r r a yh a s S u p e r O r d i n a t e Class 0..1 Ряд более высокого уровня, в который входит данный ряд рядh a s M e m b e r ряд Class 0..* Ряд более низкого уровня, входящий в данный рад. Р я д д о л ж е ни м е т ь п о к р а й н е й мере о д и н ч л е н , н о о н м о ж е т б ы т ь л и б о р я ­д о м . л и б о п о н я т и е мh a s S u p e r O r d i n a t e Class 0..1 Понятие более высокого уровня, которому подчинен данный ряд понятиеh a s M e m b e r поня­ Class 0..* Понятие, являющееся членом данного ряда. Р я д д о л ж е н и м е т ь тиеп о к р а й н е й м е р е о д и н ч л е н , н о о н м о ж е т б ы т ь л и б о р я д о м , л и б оп о н я т и е мN o d e L a b l e Class 0 . / Метка, показывающая основание, на котором выбраны и упоря­ дочены понятия данного ряда - Атрибуты класса N o d e L a b le -lexicalValue String 1 Словесное выражение метки узла -created Date 0..1 Дата создания метки узла -modified Date 0..1 Дата изменения метки узла -fang Language 0..1 Код. обозначающий язык метки узла. Используется в тех случаях, когда тезаурус поддерживает несколько языков Т а б л и ц а 6 — Атрибуты и ассоциации класса T h e s a u r u s C o n c e p t Элемент Тип Статус ОписаниеT h e s a u r u s C o n c e p t Class 1..* Понятие, входящее в тезаурус Атрибуты класса T h e s a u r u s C o n c e p ti d e n t i f i e r String 1 Уникальный идентификатор понятияc r e a t e d Date 0..1 Дата создания понятияm o d i f i e d Date 0..1 Дата изменения понятияs t a t u s String 0..1 Указание, является ли понятие кандидатом, замененным и т. л.n o t a t i o n String 0..* Символическое обозначение понятия, которое можно ис­ пользовать для упорядочения и визуализацииt o p C o n c e p t Boolean 0..1 Метка истина/ложь. указывающая на то. что понятие явля­ ется понятием верхнего уровня, т. е. не имеет вышестоя­ щих понятий Ассоциированные классы класса T h e s a u r u s C o n c e p tP r e f e r e d T e r m Class 1..* Термин, служащий меткой данного понятия. В каждом язы­ ке у понятия должен быть только один дескриптор (пред­ почтительный термин)S i m p t e N o n P r e f e r e d T e r m Class 0..* Альтернативный термин, по которому может быть найдено данное понятиеS c o p e N o t e Class 0..* Примечание, определяющее или проясняющее значение термина в данном тезаурусе 81
ГОСТ Р 7.0.91— 2015Продолжение таблицы 6 Элемент Тип Статус ОписаниеHistoryNote Class 0..* Примечание, фиксирующее изменения понятия в данном тезаурусеCustomNole Class 0..* Примечание к понятию какого-либо другого типа - Атрибуты класса CustomNote - noteType String 0..1 Определение конкретного вида примечанияNote Class 0..* Примечание любого типа, которое ссылается на данное понятие, но более непросредсгвенно прилагается к дру­ гому понятиюisMemberOfArray Class 0..* Ряд. в который входит данное понятиеhasSubordinateArray Class 0..* Ряд. подчиненный данному понятиюCustomConceptAtribute Class 0..* Дополнительный атрибут понятия - Атрибуты класса CustomConceplAtnbuto- lexicaiValue String 1 Словесное обозначение атрибута- customAthbute Type String 1 Определение конкретного вида атрибута-lang Language 0..1 Язык строки lexicaiValue Ассоциативный класс TopLevelRelationship - Классы, связанные посредством TopLevelRelationship- hasTopConcept Class 0..* Понятие наивысшего уровня, включающее данное поня­ тие- isNopConceptOf Class 0..* Понятие, на вершине иерархии которого находится данное понятие Ассоциативный класс HiecarchicalRelationship - Атрибуты класса HierarchtcalRelabonship-role String 1 Определение вида иерархического отношения, которое связывает два понятия, например. ВТ. BTI. NT. NTP и др. - Классы, связанные посредством HierarchicalRelationship- hasHierRelCoocept Class 0..* Понятие, связанное с исходным понятием отношением, определенным в иго1е». Например, если «role» есть ВТ. то это — связь к вышестоящему понятию от данного понятия - isHierRefConcept Class 0..* Исходное понятие, с которым данное понятие связано от­ ношением. указанным в «role». Например, если роль есть ВТ. то это — связь к понятию, для которого данное понятие является вышестоящим Ассоциативный класс AssoctativRelattonship - Атрибуты класса AssodativRelationship-role String 0..1 Определение вида ассоциативного отношения, которое связывает два понятия. Это обычно RT. но отношение мо­ жет быть несимметричным, например CAUSE, как уже об­ суждалось в 10.4 82
ГОСТ Р 7.0.91— 2015Окончание таблицы 6 Элемент Тип Статус Описание - Классы, связанные посредством AssociativRelationship- hasRelatedConcep! Class 0..* Понятие, связанное с данным понятием отношением, ука­ занным в «role*. Например, если отношение есть CAUSE, то это — связь с понятием, которое является причиной данного понятия- isRelatedConcept Class 0..* Исходное понятие, с которым связано данное понятие от­ ношением. указанным в «role*. Например, если роль есть CAUSE, то это — связь с понятием, для которого данное понятие является причиной Т а б л и ц а 7 — Атрибуты и ассоциации класса ConceptGroup Элемент Тип Статус ОписаниеConcepIGroup Class 0..* Группа понятий, выбранная по некоторому критерию, такому как ак­ туальность в определенной предметной области Атрибуты класса ConcepIGroupidentifier String 1 Уникальный идентификатор группыconceptGroup Type String 1 Метка, указывающая тип группы, например, «микротезаурус», «те­ матика» или «предметная категория»notation Stnng 0..1 Символическое обозначение группы, которое можно использовать для сортировки и визуализации Ассоциированные классы класса ConceptGroupThsaurusConcept Class 0..* Понятие, входящее в группуhasSuperGroup Class 0..* Группа более высокого уровня, членом которой является данная группаhasSubGroup Class 0..* Группа нижнего уровня, являющаяся членом данной группыConceptGroupLabei Class 1..* Метка, представляющая собой словесное описание группы. Группа в каждом языке должна иметь одну такую метку - Атрибуты класса ConceptGroupLabei- lexicalValue String 1 Словесное выражение метки- created Date 0..1 Дата создания метки- modified Date 0..1 Дата изменения метки-lang Language 0..1 Код. обозначающий язык метки. Используется в тех случаях, когда тезаурус поддерживает несколько языков Т а б л и ц а 8 — Атрибуты и ассоциации класса ThesaurusTerm Элемент Тип Статус ОписаниеThesaurusTerm Class 1 Термин тезауруса, по которому гложет быть найдено понятие Атрибуты класса ThesaurusTermlexicalValue String 1 Словесное представление терминаidentifier String 1 Уникальный идентификатор терминаcreated Date 0..1 Дата создания термина 83
ГОСТ Р 7.0.91— 2015Продолжение таблицы 8 Элемент Тип Статус Описаниеmodified Date 0..1 Дата изменения терминаsource String 0..1 Лица или документы, откуда был получен тезаурусstatus String 0..1 Указание, является ли термин кандидатом, замененным и т. п.tang Language 0..1 Код языка термина. Должен указываться, если тезаурус под­ держивает несколько языков Ассоциативные классы класса ThesaurusTermHistoryNote Class 0..* Примечание, фиксирующее изменения термина в тезаурусеEditorialNote Class 0..* Примечание для редакторов, используемое при редактиро­ вании тезаурусаDefinition Class 0..* Примечание, дающее определение термина, не обязательно ограниченное значением понятия, обозначаемого этим тер­ мином в данном тезаурусе- Атрибуты класса Definition- source String 0..1 Лица или документы, откуда было получено определениеCostom TermAttribute Class 0..* Дополнительный атрибут термина -Атрибуты класса Costom TermAttribute- texicalValue String 1 Словесное представление атрибута- CostomAttributType String 1 Указание на конкретный вид атрибута-tang Language 0..1 Язык строки lexicafValue Специализации класса ThesaurusTermPreferedTerm Class Термин, выбранный в качестве метки понятияSimpleNonPreferedTerm Class Термин, который служит как альтернативная метка понятия, но не является дескриптором - Атрибуты класса SimpleNonPreferedTerm-hidden Boolean 0..1 Флажок да/нет. показывающий, можно ли термин исключать из некоторых видов выходных формSplHNonPreferedTerm Class Термин, который представляет комбинацию двух или более понятий тезауруса- Ассоциации классов PreferedTerm и SimpleNonPreferedTerm- Equivalence Association class- - Атрибуты класса Equivalence--ro le Class 0..1 Уточнение типа отношения эквивалентности. Обычно это USE. связывающий исходный SimpleNonPreferedTerm сPreferedTerm- - Классы, связанные посредством Equivalence- - PreferedTerm Class 1 Термин, связанный с данным исходным термином отноше­ нием. указанным в «role». Напр. если роль — USE. то это ссылка на дескриптор, который следует использовать вме­ сто данного аскриптора 8 4
ГОСТ Р 7.0.91— 2015Окончание таблицы 8 Э л е м е н т Тип С та тус О п и са н и е - - SimpteNonPrefered- Class 0 . . * Исходный термин отношения, с которым данный терминТвгт связан отношением, указанным в «role». Напр. если роль — USE. то это ссылка на аскриптор, вместо которого употре­ бляется данный дескриптор - - Ассоциации классов PreferedTerm и SplitNonPreferedTerm- - CompoundEquivalence Association class- - Классы, связанные посредством CompoundEquivalence- - SptitNonPreferedTerm Class 0 . .* Аскриптор. именующий сложное понятие, представленное комбинацией дескрипторов. См. 8.5- - PreferedTerm Class 2 . .* Один из двух или нескольких дескрипторов, которые со­ вместно представляют данный SplitNonPreferedTerm*) Т а б л и ц а 9 — Атрибуты и ассоциации класса Note Э лем ент Тип С татус О п и са н и еNote Class 0..* Текст, содержащий дополнительные сведения о термине или понятии Атрибуты класса NotelexicalValue Stnng 1 Словесное представление текста примечанияcreated Date 0..1 Дата создания примечанияmodified Date 0..1 Дата изменения примечанияlang Language Код. указывающий язык примечания. Используется в случае, если те­ заурус поддерживает несколько языков Ассоциированные классы класса NoteTesaurusConcept Class 0..* Понятие, на которое ссылается примечание, но не то. к которому при­ мечание напрямую привязано Специализации отдельных типов класса NoteScopeNote Class 0..* Примечание, определяющее или разъясняющее понятиеHistoryNote Class 0..* Примечание, фиксирующее изменения понятия или терминаDefinition Class о.* Определение термина, не обязательно ограниченное понятиями, пред­ ставляемыми терминами тезаурусаEditonalNote Class 0..* Примечания для использования при редактировании тезаурусаCustomeNote Class 0..* Примечание какого-либо другого типа к понятию - Атрибуты класса CustomeNote-noteType Stnng 0..1 Указание конкретного типа примечания16 Интеграция тезаурусов с приложениями 16.1 В ведение Первичная функция тезауруса — это помощь в нахождении информации. Тезаурус обычно ис­ пользуют на двух этапах процедуры нахождения: во время индексирования и во время поиска. Хотя существуют программные пакеты, которые управляют созданием, развитием и ведением тезауруса. 11 В оригинале ошибочно указано «CompoundNonPreferedTerm». 85
ГОСТ Р 7.0.91— 2015 индексированию и поиском в одной интегрированной системе, чаще бывает принято рассматривать эти функции как отдельные приложения. Поэтому необходимо, чтобы тезаурусными данными можно было беспрепятственно обмениваться между этими приложениями, при этом следует избегать ошибок и не­ определенностей при текущем обновлении данных. С распространением электронных сетей и почти всеобщим использованием компьютеров в управ­ лении информацией сценарий становится все более сложным, что дает возможность обмена данными и информацией в масштабе, который раньше нельзя было даже вообразить. Из одного компьютера, включенного в сеть, можно одновременно опрашивать различные коллекции книг, статей, фотографий, наборов данных и музейных экспонатов, размещенные на компьютерах, распределенных по всему миру. Чтобы обеспечить возможность использования тезауруса в подобном сценарии, от систем тре­ буется, чтобы системы были совместимыми, т. е. разные системы или их компоненты были способны обмениваться информацией для внутрисистемного использования. В настоящем разделе описываются: a) свойства и функции, которые обеспечивают совместимость тезауруса с системами и сетями; b ) свойства и ф ункции, которые необходимы программам индексирования и поиска, использую ­ щим тезаурус. Здесь не описываются свойства и функции, необходимые таким приложениям, которые использу­ ют два или более связанных тезауруса. Такие требования будут включены в [6] и следующую версию стандарта. 16.2 С о вм е с ти м о с ть, необ ход им ая д л я те за ур усо в Как описано в 14.8. программное обеспечение, используемое для ведения тезауруса, должно быть способно экспортировать и импортировать тезаурус целиком и по частям. Для этого должен ис­ пользоваться стандартный формат тезауруса (см. раздел 17). Для замены старой версии тезауруса новой должна быть предусмотрена возможность экспорти­ ровать все новые, измененные и исключенные статьи. Когда внедряется новая версия тезауруса, система должна быть в состоянии включить все новые или измененные термины без потери данных, приписанных к сохранившимся терминам, если они еще действительны. Например, отсылки от терминов к ресурсам, которые заиндексированы этими терми­ нами. Для предоставления возможности использования тезауруса пользователями сети (например. Ин­ тернета) тезаурус должен быть опубликован в сети в стандартном формате (см. раздел 17). Опубликованный тезаурус должен регулярно обновляться. Это может потребовать импорта и за­ грузки файла обновлений из приложения, в котором поддерживается эталонная версия. Если тезаурус опубликован в сети, для получения всех или части данных тезауруса должен ис­ пользоваться стандартный протокол (см. раздел 18). Например, программе поиска может потребовать­ ся выбрать всю или часть информации, связанной с отдельным понятием или понятийной группой. С каждым понятием должен быть связан уникальный идентификатор, что облегчает распределенный поиск. Для удобства пользователей и широкого распространения тезаурус должен быть зарегистрирован в каком-либо словарном регистре, который обслуживает целевую аудиторию пользователей. 16.3 И нтеграц ия с пр о гр а м м а м и и н д е кс и р о в а н и я и п о и с ка 16.3.1 Если тезаурус предназначен для информационного поиска, он должен быть совместим с системами, в которых происходит индексирование и поиск. Д ля печатных тезаурусов интеграция д о ­ стигается тем, что человек, просматривая страницы, выбирает термины и вводит их в информационно­ поисковую систему с соответствующим синтаксисом. Для электронных тезаурусов эти функции должны поддерживаться дружественным интерфейсом. Пока ведение тезауруса не объединено в одной системе с индексированием и поиском, первое требование состоит в том. чтобы экспортировать тезаурусные данные из системы ведения тезауруса в информационно-поисковую систему. Форматы и протоколы для этого описаны в разделах 17 и 18. 16.3.2 Все системы, которые вовлечены в обработку тезаурусных данных, должны поддерживать все символы, которые могут быть представлены в данных. Они обычно включают скобки квалификато­ ров терминов и иногда другие знаки препинания. В случае многоязычного тезауруса должны поддержи­ ваться все символы письменностей и алфавитов всех его языков. 86
ГОСТ Р 7.0.91— 2015 16.3.3 Для программ индексирования и поиска, за исключением тех. которые полностью автома­ тизированы и не предусматривают вмешательства пользователя, необходимо обеспечить возможности просмотра и поиска в тезаурусе. Это включает следующее: a) Возможность поиска термина, содержащего какое-нибудь слово, словосочетание или буквосо­ четание. b ) Ж елательно, чтобы бы ла предоставлена помощ ь поиска термина и понятия по обозначению или имеющимся идентификаторам. c) Возможность выбирать и переключать язык интерфейса многоязычного тезауруса, а также ограничивать поиск и выдачу одним из языков. d) Возможность показывать эквиваленты для данного термина, дескриптора (предпочтительного термина) или аскриптора (непредпочтительного термина), включая иноязычные эквиваленты, если те­ заурус многоязычный. e) Возможность переходить от записи для одного понятия к записи для вышестоящих, нижестоя­ щих и ассоциативных понятий, что обычно достигается установлением гиперссылок. Эта возможность может исключить потребность в нотации для связи алфавитного указателя с классификационным или иерархическим. f) Возможность увеличивать или сокращать глубину просмотра классификационного или иерархи­ ческого указателя. Д ля получения начального обзора структуры должна быть предусмотрена возмож­ ность начинать с просмотра верхнего уровня, а затем выборочно увеличивать глубину просмотра. д) Возможность переключать стили просмотра, например от классиф икационного к алфавитному отображению. Предпочтительно, чтобы была возможность одновременного просмотра обоих этих ука­ зателей. 16.3.4 Когда тезаурус интегрирован с поисковой коллекцией документов и имеется необходи­ мость. чтобы пользователь консультировался с тезаурусом, на экране также должно отображаться число использований каждого дескриптора (предпочтительного термина). При просмотре тезауруса пользователь должен иметь возможность перейти прямо к фазе поиска. Должны быть предоставлены следующие возможности: a) Возможность выбрать для поиска один или более терминов, отображенных на экране. b ) Возможность создать поисковое предписание посредством копирования терминов из тезауруса без необходимости повторного набора текста (например, посредством двойного щелчка или перетаски­ вания). Идеально будет, если будет предоставлена помощ ь по включению синтаксиса (например, по выбору булевских операторов). c) Возможность выбрать для поиска иерархические поддеревья тезауруса, т. е. искать по данному термину и по всем нижестоящим к нему терминам, соединенным булевским ИЛИ. что иногда называет­ ся «взрывным» поиском. d) Выбор аскриптора (непредпочтительного термина) должен вести к замене его в поисковом предписании соответствующим дескриптором (предпочтительным термином), при обеспечении пользо­ вателя сведениями об этом. В том случае, когда пользователь ввел в поисковое предписание аскриптор (непредпочтительный термин) без предварительного просмотра тезауруса, ему должно быть предложе­ но конвертировать его в соответствующий дескриптор (предпочтительный термин). Во время процедур улучшения поисковых характеристик в каждом из указателей тезауруса число использований терминов должно соответствовать действительному положению для выбранной коллекции данных. 16.3.5 Тезаурус также можно использовать в поисковой машине без предъявления его пользова­ телю для просмотра. Для этого типа использования могут быть предусмотрены возможности, указан­ ные в 16.3.4. перечисления с) и d).ПримерыA) Если пользователь вводит термин, сходный с одним или несколькими терминами тезауруса,поисковая машина может ответить яВы имели в видутаким способом предлагая пользовате­л ю ближайшие подходящие дескрипторы тезауруса.B) Если пользователь вводит термин, сходный с несколькими терминами тезауруса, он можетв ответ найти результаты по всем этим терминам и рассортировать выдачу по этим терминам.(Например, если тезаурус имеет два термина яturkey (meat)» и яTurkey (country)а, а пользователь ищетпросто яTurkeyа, результаты поиска могут быть представлены двумя списками, соответствующи­ ми каждому из терминов тезауруса.)C) Пользователю может быть предоставлена возможность ярасширять» и ясужать» поиск безобъяснения, как это делается. 87
ГОСТ Р 7.0.91— 2015D )П р и п о л у ч е н и и н е д о с т а т о ч н о й в ы д а ч и п о и с к м о ж е т б ы т ь а в т о м а т и ч е с к и р а с ш и р е н в ы ш е с т о ­я щ и м и , н и ж е с т о я щ и м и и а с с о ц и а т и в н ы м и т е р м и н а м и . Если поисковые термины автоматически конвертируются, замещаются, переводятся, заменяют­ ся вышестоящими или нижестоящими терминами, пользователь должен быть проинформирован, что было сделано. 16.3.6 Отношения эквивалентности в тезаурусе позволяют производить поиск по базам данных, которые не индексировались по данному тезаурусу. Например, если тезаурус включает термины « т о - tor-bikes», «motor-cycles» и «motorcycles» в качестве дескрипторов или аскрипторов (предпочтительных или непредпочтительных терминов) для одного и того ж е понятия, то поиск по любому из этих терминов может быть расширен включением поиска по всем остальным синонимам. См. также обсуждение сино­ нимических колец (synonym rings) в [6]. 16.3.7 При интеграции в систему индексирования или каталогизации должны быть обеспечены следующие функции: a ) копирование одного или более терминов прямо в формуляр индексирования без необходимо­ сти вводить слова с клавиатуры: b ) проверка по тезаурусу терминов, введенных напрямую (при вводе напрямую аскриптора не­ предпочтительного термина), он должен бы ть заменен на дескриптор автоматически с извещением об этом пользователя. При вводе строки символов, совпадающ ей с началом одного или более терми­ нов тезауруса, индексатору должны быть предложены для выбора все соответствующие дескрипторы (предпочтительные термины): c) возможность ввода в тезаурус кандидатов в дескрипторы для рассмотрения их редактором тезауруса (см. 13.6). 16.3.8 Если система предназначена для автоматического индексирования, а не для работы спе­ циалиста, то должны быть предусмотрены средства связи каждого дескриптора (предпочтительного термина) с алгоритмом или правилами, которые управляют его использованием.17 Обменные форматы Взаимодействие различных компьютерных приложений требует использования общего формата. Хорошо известны следующие четыре формата: - MARC (Mashine-Readable Cataloging) [22] — Этот набор стандартов, основанный на ИСО 2709, широко используется для обмена библиографическими данными между библиотеками. Хотя основное применение этих стандартов относится к обмену каталожными записями, в набор входят также стан­ дарты по обмену «авторитетными записями», т. е. записями, взятыми из тезаурусов и других типов контрольных словарей. О собое значение имеют: 1) MARC 21 Формат для авторитетных данных (имеется в полной и сокращенной версии) [23]: 2) MARC 21 Формат для классификационных данных (имеется в полной и сокращенной версии) [24]; 3) MADS (Metadata Authority Description Schem a) — совместимый c MARC 21 формат описания на XML данных того типа, которые содержатся в записях авторитетных данных. Форматы MARC, выраженные на языке XML. соответствуют [25]. - SKOS — Формат SKOS (Simple Knowledge Organization Sistems) [26. 27] установлен рекомен­ дацией W3C применительно к работам по семантическому вэбу и использует кодировку XML и RDF (Resource Description Framework). Он разработан как для тезаурусов, так и для классификационных систем, таксономий и других типов словарей. - Z th o s — Zthes [28] первоначально был разработан как прикладной профиль Z39.50 для обмена тезаурусными данными, но впоследствии был развит для использования с SRU (Search and Retrieval via URL: см. раздел 18). - DD 8723-5 — Этот проект британского стандарта предлагает схему XML, которую можно исполь­ зовать для обмена тезаурусом, удовлетворяющим британскому стандарту BS 8723 [29]. Схема доступ­ на на http://schem as.bs8723.org/. Дополнительно к этим четырем форматам для удовлетворения потребностей отдельных сфер применяют и другие форматы. В частности, находит применение [30] — Система разметки терминологических данных TMF (Ter­ minological M arkup Framework) для компьютерных работ в терминологии. Эта схема разработана для обеспечения единых принципов представления данных в терминологических коллекциях. Она включа- 88
ГОСТ Р 7.0.91— 2015 ет метамодель и методы описания специализированных терминологических языков разметки (TML), выраженных форматом XML. Эта разработка поддерживает использование и развитие компьютерных приложений к терминологическим данным и обмен ими между различными приложениями. Категории данных и методы описания структур данных определены в [31] и других родственных международных стандартах ИСО. Поскольку ни один из существующих форматов не способен передавать все особенности тезауру­ сов. использующих модель раздела 15. рекомендуется формат XML. Похоже на то. что в течение некоторого времени будут сосуществовать несколько различных фор­ матов. Один из путей минимизации неудобств множественности форматов состоит в том. чтобы кон­ вертировать данные подходящим преобразователем, даже если некоторая информация будет терять­ ся. если тезаурус преобразуется в формат, не поддерживающий все особенности исходного формата. В настоящее время разрабатывается несколько таких преобразователей. Сайт Schemas (http://www. niso.org/schemasyiso25964) предоставляет место, на котором могут быть найдены будущие разработки.18 Протоколы 18.1 О бщ ие св е д е н и я Протокол является важным инструментом коммуникационного процесса, позволяющим использо­ вать тезаурусы в компьютерных сетях. Используется несколько протоколов, обеспечивающих быстрое получение сведений из тезаурусов с целью индексирования или поиска, как то описано в п. 16.3. В этой быстро развивающейся области постоянно появляются новые разработки, поэтому создать полный перечень протоколов невозможно. Поскольку каждый протокол имеет силу в своих обстоятельствах и в окружении специф ических приложений, то и те. ко