EGOTECH | Help

ET TermExtract

Программное средство для определения частотности использования терминологических единиц (слов и словосочетаний) в тексте.

Текущая версия работает по следующим параметрам:

Монолингвальный (одноязычный) файл.
Язык загружаемого текста: английский / русский.
Доступные форматы обрабатываемыхфайлов: docx, .txt, .xlsx, .tmx
Возможный размер обрабатываемого файла: до 1,5 Мб (docx); до 5 Мб (txt, .xlsx, .tmx).

* Необходимо обработать файлы большего размера? Вы можете воспользоваться инструментом ET TMX Processor.

Приступаем к работе!

Шаг 1: До начала работы следует ознакомиться с предварительной информацией нажав кнопку "Начало работы"

Чтобы скрыть информацию снова нажмите на кнопку "Начало работы:".

Шаг 2: Создание проекта (поля под "*" обязательны для заполнения):

А) загрузите файл .docx, .txt, .xlsx, .tmx с локального диска

Б) установите пороговое значение частности слова / словосочетания в диапазоне от 2 — 10

В) выберите язык терминологии подлежащей поиску.

Г) нажмите кнопку "Создать проект".(Рис. №2)

2.1 Убедитесь, что проект отобразился в поле "Мои проекты" справа. (Рис. №2.1)

Созданный проект также отобразится в Вашем Личном кабинете во вкладке "Мои проекты"(активная ссылка).

Шаг 3: Кликните "Открыть" у выбранного проекта и нажмите кнопку "Запустить" (Рис. №3.).

Работа с проектом.

А) Открыть или Удалить проект можно, нажав соответствующую кнопку в поле "Мои проекты", а также из вкладки "Мои проекты" Личного кабинета. (Рис. №3.1.).

Б) При нажатии на кнопку "Открыть", данные зарегистрированного проекта отображаются автоматичеcки

В) Нажмите кнопку "Запустить".

Работа с результатом обработки ET TermExtract.

4.1 Общие данные.

Результаты обработки отображаются в виде таблицы данных, которая содержит:

А) Список отобранных трех, двух и односоставных единиц анализа — колонка "Элемент".

Б) Список морфологически нормализованных единиц анализа в форме единственного числа и им. падежа (в случае обработки файла на языке, в котором есть система склонения) — колонка "Стем".

В) Количественное значение частоты встречаемости трех, двух и односоставных элементов в загруженном тексте — колонка "Частота". (Рис. №4.)

* Примечание: очередность представления в таблице выгрузки начинается с трехсоставных элементов. Группы выдачи элементов маркированы.

4.2 Дополнительные возможности.

А) ET TermExtract позволяет формировать отдельный список аббревиатур, которые содержаться в анализируемом тексте. Для выгрузки данных нажмите кнопку "Показать файл с аббревиатурами" (Рис. №4.2).

Б) Результаты обработки отображаются в виде таблицы данных, которая содержит аббревиатуру — колонка "Элемент", количественное значение частоты встречаемости в тексте — колонка "Частота".

* Примечание: количественные значения частотности аббревиатур отображаются от наибольшего к наименьшему. При анализе частотности аббревиатур, заданное пороговое значение встречаемости не учитывается.

В) Для возврата к списку терминов, нажмите кнопку "Показать основной файл".

4.3 Редактирование данных.

Кликните на поле колонки "Элемент" / "Стем", в котором отображается слово или словосочетание для вызовапанели визуального редактора, с помощью которого возможно выполнить различные действия по форматированию, например: (Рис. №4.5)

* Примечание: правки могут быть внесены непосредственно в таблицу результатов.

4.4 Сохранение и выгрузка данных.

А) Для сохранения и выгрузки данных в виде таблицы,нажмите на кнопку "Сохранить результат в формате .xls". (Рис. №4.6).

Б) Для сохранения и выгрузки данных в формате .tmx, нажмите кнопку "Сохранить файл в формате .tmx".

* Примечание: кнопка "Проекты" позволят перейти к списку созданных проектов. Кнопка "На главную", позволяет вернуться на главную страницу сайта.