Опубліковано: Кузьменко Д. До питання про створення електронного корпусу художніх текстів // Studia Linguistica. Vol. IV. — К.: ВПЦ “Київський університет”, 2010. — С. 327-330.
Анотація: У статті розглядаються передумови створення електронного літературного корпусу, описується умовна модель такого корпусу, його необхідні складові, форма представлення інформації для кінцевого користувача, можлива взаємодія з лінгвістичними корпусами, його сфера застосування.
Ключові слова: корпусна лінгвістика, літературний корпус, лінгвістичний корпус, база даних, електронна бібліотека
Активний розвиток останніми роками корпусної лінгвістики засвідчує, що цей напрям стає одним з провідних серед прикладних мовознавчих досліджень. Основне завдання корпусної лінгвістики традиційно вбачають у створенні електронних лінгвістичних корпусів, на зразок «Британського національного корпусу» або «Національного корпусу російської мови» (
www.ruscorpora.ru). Однак з корпусною лінгвістикою тісно пов’язане створення повнотекстових баз даних, на зразок «Thesaurus Linguae Graecae» (
www.tlg.uci.edu) або проекту «Персей» (
www.perseus.tufts.edu), що зазвичай є водночас лінгвістичними й літературними. Перспективність, необхідність та актуальність подібних повнотекстових корпусів є очевидною — дослідники літературознавці (чи представники інших наукових дисциплін) отримують увесь масив потрібних для досліджень художніх творів (чи інших текстів) з повним інструментарієм у вигляді систем пошуку і цитування, бібліографії, тезаурусів і глосаріїв, а у випадку поєднання з лінгвістичним корпусом — ще й повну лінгвістичну інформацію про тексти та їхні одиниці.
У вітчизняній прикладній лінгвістиці або ж у літературознавстві подібна тематика практично не розробляється, у чому й полягає новизна цього дослідження.
Метою дослідження є окреслити у загальних рисах питання створення електронного літературного корпусу: сфери його застосування, принципи зовнішнього представлення даних та їхньої внутрішньої структури, можливість поєднання з лінгвістичним корпусом. Таким чином, предметом нашого дослідження є електронний літературний корпус, а об’єктом — передумови й принципи його створення в українським умовах. У дослідженні ми спиратимемось як на праці з корпусної лінгвістики [Апресян 2005; Савчук 2005; Перцов 2006], так і на описи існуючих літературних повнотекстових корпусів [Thesaurus 2009; Герд 2004].
Під терміном «літературний корпус» ми розглядаємо повнотекстову електронну базу даних, яка охоплює усі літературні тексти у певних рамках (конкретного автора, періоду, мови, регіону, жанру тощо) або має за кінцеву мету таке повне охоплення, де всі тексти параметризовані, структуровані й мають зручне для читача та дослідника представлення. Електронний літературний корпус відрізняється від електронної бібліотеки повнотою охоплення матеріалу та підходами до його параметризації й опису, сферами застосування і цільовою аудиторією. Однак це розрізнення не є чітким, бо окремі літературні корпуси використовують у своїй назві термін «електронна бібліотека», наприклад проект «Персей».
Сфера застосування літературних корпусів може бути дуже широкою, однак передовсім це застосування у наукових дослідженнях та навчальному процесі. Зокрема, згаданий вище корпус грецької мови, що охоплює практично всі античні та середньовічні тексти старогрецькою мовою, слугує обов’язковим інструментарієм для будь-якого дослідника класичної філології, патрології, античної філософії чи історії тощо. Цей корпус, як і «Персей», поєднуються з лінгвістичним, що створює також широкі можливості для лінгвістичних або міждисциплінарних досліджень. Певним недоліком обох корпусів є недостатня зручність у представленні метатекстових даних, у класифікації та пошуку за авторами тощо.
З урахуванням переваг і недоліків існуючих корпусів ми спробуємо описати теоретичну модель такого корпусу. Нехай це буде корпус античної літератури, спрямований для навчання й наукових досліджень в українських умовах. За цими ж принципами можна побудувати літературні корпуси для інших літературних періодів.
Основною одиницею літературного корпусу є текст. Це може бути як текст конкретного видання, так і сам художній твір. Останнє, на нашу думку, є більш правильним, оскільки деякі твори можуть бути невидані, а інші, навпаки, мати безліч різних видань. Отже одиницею, від якої відштовхується представлення даних та їхня параметризація, є певний узагальнений текст, який ми умовно назвемо «твір». Кожен твір може мати в корпусі кілька текстів — наприклад, різні видання з різночитаннями, а також бути пов’язаним із перекладами та текстами про нього (критичні дослідження тощо). Тому наступною одиницею корпусу буде власне «текст» — те чи інше видання або переклад. Твори можуть належати певному автору, авторам, або бути анонімними, що вимагає введення відповідної одиниці. Твори також можуть групуватися у цикли, серії, тематичні групи (наприклад «Давньогрецька класична лірика»). Таким чином, ми визначаємо для корпусу три основні одиниці: твір, текст, автор. Усі ці одиниці мають ряд власних параметрів, що дозволяє їх класифікувати і представляти для користувачів.
Класифікації й представленню основних одиниць у корпусі має бути приділена особлива увага. Для авторів повинна бути класифікація за періодами, напрямками, регіоном. Для творів — за часом і місцем написання, мовою, жанром. Для текстів — за бібліографічними параметрами видання. У розділі автора повинна міститися його коротка біографія та загальний огляд його творчості, у розділі твору — його критичний аналіз, у розділі тексту — повна бібліографічна інформація про видання.
Представлення корпусу для користувача, очевидно, повинно бути у вигляді Інтернет-сайту із відкритим або закритим доступом. Відображення даних можна розділити на ряд блоків: автора; твору; тексту; каталогу. При потребі, окремим блоком представлення можна розглядати переклади та бібліографію.
Блок автора містить на першій сторінці відомості про дати і місця його народження й смерті; його належність до того чи іншого регіону та літературного або хронологічного періоду; мови на яких він писав; основні жанри, тематика творів; його зображення (якщо існує); а також перелік його творів, погрупованих за жанрами (великі прозові форми; малі прозові форми; великі поетичні форми; малі поетичні форми; збірки; наукова література та есеїстика тощо), а всередині груп хронологічно, однак із можливістю змінити представлення списку на зручний для користувача — суто хронологічний або алфавітний. На сторінці автора знаходяться посилання на сторінки з його детальною біографією, критичним оглядом творчості, повною бібліографією тощо.
Блок твору містить його літературознавчий огляд, інформацію про дату й місце написання, жанр, тематику (у вигляді ключових слів), належність до стильових течій чи груп, мову, основні видання і переклади на українську. Зі сторінки твору можна перейти на сторінку з детальною бібліографією, а також на самі електронні тексти твору, що містяться у корпусі — оригінальні та переклади. Блок тексту представляє відображення власне тексту, яке може бути або посторінкове, або повністю на одній сторінці. У випадку поєднання з лінгвістичною базою даних для користувача з’являється можливість користуватися довідковою мовознавчою інформацією про кожне слово тексту. Окремий блок українських перекладів може стати оболонкою для підкорпусу українських перекладів античної літератури. Він може бути побудований у вигляді зручної пошукової системи за бібліографічною інформацією про всі існуючі переклади з посиланнями на наявні у базі електронні тексти.
Блок каталогу надає можливість переглядати авторів і твори за різноманітними параметрами класифікації — хронологічно, за абеткою, за жанрами, за регіонами, за мовами тощо.
За умови подібної побудови й представлення корпусу текстів будуть нівельовані недоліки існуючих подібних проектів, корпус стане зручним для користування — придатним для науково-дослідницької, навчальної та перекладацької діяльності.
Безумовно, створення подібного корпусу вимагає великого обсягу робіт, як технічних (програмування і тестування, вебдизайн, оцифрування або імпортування текстів), так і філологічних (детальніша розробка параметризації, класифікації творів, наповнення корпусу довідковою інформацією, редагування текстів; інтеграція з лінгвістичним корпусом), і в найближчій перспективі навряд чи щось подібне буде в Україні створено. Однак постановка питання й розробка теоретичних засад допоможе запобігти можливим помилкам у майбутньому, адже в процесі реалізації виправляти недоліки дуже складно, а то й неможливо.
Таким чином ми визначили основні характеристики електронного літературного корпусу, від яких можна відштовхуватись у випадку початку робіт над створенням подібного проекту. Ми розглядали корпус переважно з точки зору користувача і не зупинялися детально на технічний реалізації, бо останнє має бути темою окремих досліджень. Описані вище теоретичні засади нами було апробовано — створено оболонку для літературного корпусу з мінімальним набором функцій (сторінки автору і твору, пошук і класифікація, однак без електронних текстів), що доступна за адресою
http://babylon.mova.info.
Аннотация: В статье рассматриваются предпосылки создания электронного литературного корпуса, описывается условная модель такого корпуса, его необходимые составляющие, форма представления информации конечному пользователю, возможное взаимодействие с лингвистическими корпусами, его сфера использования.
Ключевые слова: корпусная лингвистика, литературный корпус, лингвистический корпус, база данных, электронная библиотека
Summary: The article explores prerequisites for creating an electronic literary corpus, describes the conditional model of such a body, its necessary components, the presentation of information to the user, the possible interaction with linguistic corpora, its scope of use.
Keywords: corpus linguistics, literary corpus, linguistic corpus, database, digital library
Література
2. Апресян Ю. Д., Богуславский И. М., Иомдин Б. Л. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы / Ю.Д. Апресян, И.М. Богуславский, Б.Л. Иомдин // Национальный корпус русского языка: 2003—2005. — М.: Индрик, 2005. — С. 193-214.
3. Герд А. С., Алексеева Е. Л., Азарова И. В., Захарова Л. А. Электронный корпус текстов по памятникам древнерусской агиографической литературы / А.С. Герд, Е.Л. Алексеева, И.В. Азарова, Л.А. Захарова // Научно-техническая информация. — 2004. — Сер. 2; Вып. 9. — С. 16-20.
4. Перцов Н. В. О роли корпусов в лингвистических исследованиях // Труды международной конференции «Корпусная лингвистика–2006». — СПб.: Изд-во С. Петерб. ун-та, 2006. — С. 318-331.
5. Савчук С. О. Метатекстовая разметка в Национальном корпусе русского языка: базовые принципы и основные функции // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. — М., 2005. — С. 62-88.