Информатика
Проектирование
Геометрия
Алгебра
Курсовой
Графика
Электротехника
Задачи

Сопромат

Лабораторные
Методика
Физика
Чертежи
Энергетика
Математика
Реактор

Лингвистические средства

 Определение понятия «лингвистическое обеспечение»

В литературе по информатике накопилось значительное количество различных подходов к понятию «лингвистическое обеспечение» (далее ЛО) и, соответственно, различных определений этого понятия (или близких понятий «информационно-поисковые языки», «языковые средства АИС» и др.). Кратко рассмотрим основные подходы.

Наиболее распространенным является классический подход, при котором лингвистическим обеспечением называют комплекс информационно-поисковых языков, прежде всего, классификационных и вербальных (дескрипторных). Этот подход ведет свое начало от классического труда «Основы информатики» и типичен для разработчиков систем, которые обычно относят к НТИ. С небольшими изменениями этот подход принят и в теории автоматизированных библиотечно-информационных систем (АБИС), в которой, однако, в понятие ЛО часто включают и языки библиографических данных.

Существует подход, который можно назвать «лингвистическим», поскольку он органически вытекает из лингвистического взгляда на информационные системы и который развивают в основном специалисты по прикладной и компьютерной лингвистике. В соответствии с этим подходом лингвистическое обеспечение – это комплекс средств, используемых для автоматической обработки текстов на естественном языке (включая обработку запросов и поиск), т. е. прежде всего, языковых процессоров.

Более общим является подход, который следует определить как «семиотический», поскольку он исходит из классических семиотических представлений о языке как системе знаков разного уровня, начиная, естественно, с алфавита. При этом подходе лингвистическое обеспечение АИС определяется как «средства представления информации в виде данных и интерпретации этих данных». При этом подходе в состав ЛО нужно, например, включать средства кодировки алфавитов или форматы представления данных, но не нужно включать инструментальные языки программирования, в частности процедурные средства разметки.

Иногда в литературе можно встретить представление об языковых средствах, которое можно назвать «программистским».

Сторонники такого подхода опираются на полисемию термина «язык», который, как известно, может обозначать в информационной литературе не только средства представления данных, но и средства манипулирования данными, включая инструментальные средства программирования и другие формальные системы. К тому же среди средств манипулирования данными, в результате развития в последние годы, появляются языки высокого уровня, которые все ближе к тому, что можно назвать формализованным естественным языком и все дальше от обычного представления от обычных инструментальных средств. Таковы, например, языки разметки типа SGML или XML.

При «программистском» взгляде в составе ЛО могут оказаться вообще все языковые средства пользователя, причем несущественно, носят ли они характер языков описания данных, представления данных или манипулирования данными.

Наконец, можно отметить подход, зафиксированный в нормативных документах по АСУ (группа ГОСТ 34), в которых разделяются информационное и лингвистическое обеспечение. При этом основной тип ИПЯ этих систем – классификаторы, а также форматы данных – эти нормативные документы относят к информационному обеспечению, а на долю лингвистического обеспечения остается только правила оформления естественно-языковых единиц этих классификаторов, т. е. чисто лексикографические аспекты.

Изложенные различия в подходах во многом определяются разными характеристиками АИС и электронных библиотек (ЭБ), для которых создаются соответствующие языковые средства, включая их тип, характер обрабатываемой в ней информации, а также разделение функций между системой и пользователями.

Несколько слов о терминологии в отношении собственно информации, вводимой в АИС и служащей объектом для использования языковых средств. Традиционно основным термином для обозначения информационных объектов АИС был термин «документ». В последнее время распространился термин «информационный ресурс» и даже «электронный ресурс». Однако слово «ресурс» в русском языке имеет явно выраженную коннотацию несчетности, поэтому использовать его для обозначения конкретных и идентифицируемых объектов стилистически неудобно. (Нельзя сказать по-русски «восемь ресурсов».) С другой стороны, далеко не всегда интересующие нас объекты являются документами в строгом смысле этого слова. Это могут быть, например, сервера, сайты, адреса, термины, имена, фрагменты документов и др. Наконец, нас интересуют только объекты, вводимые в АИС и, следовательно, представленные в электронном (цифровом) виде.

Что же касается множеств цифровых объектов, собственно и образующих информационное наполнение ЭБ, то для него в принципе можно использовать термин «информационные ресурсы». Однако этот термин в соответствии с законом «Об информации, информатизации и защите информации» обозначает более общее понятие, включающее как отдельные документы, так и множества документов. Поэтому для организованных множеств цифровых объектов (таких как базы данных, файловые системы, сайты, электронные библиотеки и музеи, хранилища данных) будет использоваться термин «информационные массивы».

Как уже отмечалось, наиболее строгое определение ЛО основано на семиотическом подходе и на представлении о ЛО как языке представления данных. Однако опыт показывает, что реальное распределение функций между постановщиками задач ЭБ, а также разработчиками программного и лингвистического обеспечения таково, что строгое семиотическое определение практически неудобно.

С одной стороны, при строгом определении в понятие ЛО необходимо включать объекты, которыми традиционно занимаются программисты, такие как системы кодировок, формальные языки запросов или языки разметки. В современных ЭБ к средствам представления данных также относятся языки представления графики, картографии, аудиоинформации, трехмерных и движущихся объектов и других нетекстовых данных. Эти средства всегда были крайне далеки от интересов разработчиков ЛО ЭБ.

С другой стороны, в область интересов информационных лингвистов (разработчиков ЛО ЭБ), всегда входили не только языковые средства представления данных, но также средства обработки текстов на естественном языке, то есть лингвистические процессоры. Поэтому если попытаться определить ЛО, как объект интересов именно этого класса специалистов, то в него следует включить, во-первых, только семантические средства представления данных, во-вторых, кроме них также лингвистические процессоры, применяемые в ЭБ.

Лингвистические процессоры – это достаточно широкий класс продуктов. В него включают, например, спеллеры, текстовые редакторы, системы морфологического и синтаксического анализа и синтеза текстов, системы автоматического перевода, различные системы компьютерной лексикографии и др.

Для наших целей мы будем рассматривать те процессоры, которые, во-первых, применяются в ЭБ, а во-вторых, ориентированы на обработку семантических языковых единиц (морфем, слов, словосочетаний), а также высших уровней языка (предложений, сверхфразовых единств).

Данные, вводимые в ЭБ, могут быть формализованы, например, в виде таблиц, математических или химических формул или других специализированных подъязыков. За редкими исключениями, и мы не будем рассматривать средства представления данных этого типа, который относится к хорошо структурированной информации. Существует еще один класс АИС, средства представления данных для которых, безусловно, следует отнести к средствам ЛО. Это АИС, специализирующиеся на обработке, представлении, поиске и синтезе устной (звучащей) речи. Однако АИС этого типа в состав ЭБ в настоящее время не включаются.

Поэтому предлагаемое ниже определение ЛО не претендует на теоретическую чистоту и рассчитано сугубо на практическое применение. Лингвистическое обеспечение ЭБ – комплекс языковых средств и процессоров, предназначенных для обработки, представления и поиска письменных текстов на естественном языке, в основном на семантическом уровне.

В современных условиях информация превратилась в важнейший интеллектуальный ресурс, целенаправленная обработка которого, называемая информационной технологией позволяет резко повысить обоснованность и эффективность применяемых методов экономического развития на уровне предприятия, региона, страны. Специалист экономического профиля (предприниматель, банковский служащий, работник управленческих отделов государственного предприятия) может рассчитывать на перспективы успешной деятельности только в том случае, если имеет представление о сущности, особенностях и возможностях информационной технологии, а также обладает хорошими практическими навыками ее использования.

Курс электрических цепей