ET TermExtract
Программное средство для определения частотности использования терминологических единиц (слов и словосочетаний) в тексте.
Текущая версия работает по следующим параметрам:
- Монолингвальный (одноязычный) файл.
- Язык загружаемого текста: английский / русский.
- Доступные форматы обрабатываемыхфайлов: docx, .txt, .xlsx, .tmx
- Возможный размер обрабатываемого файла: до 1,5 Мб (docx); до 5 Мб (txt, .xlsx, .tmx).
* Необходимо обработать файлы большего размера? Вы можете воспользоваться инструментом ET TMX Processor.
Приступаем к работе!
Шаг 1: До начала работы следует ознакомиться с предварительной информацией нажав кнопку "Начало работы"
Чтобы скрыть информацию снова нажмите на кнопку "Начало работы:".
Шаг 2: Создание проекта (поля под "*" обязательны для заполнения):
А) загрузите файл .docx, .txt, .xlsx, .tmx с локального диска
Б) установите пороговое значение частности слова / словосочетания в диапазоне от 2 — 10
В) выберите язык терминологии подлежащей поиску.
Г) нажмите кнопку "Создать проект".(Рис. №2)
2.1 Убедитесь, что проект отобразился в поле "Мои проекты" справа. (Рис. №2.1)
Созданный проект также отобразится в Вашем Личном кабинете во вкладке "Мои проекты"(активная ссылка).
Работа с проектом.
А) Открыть или Удалить проект можно, нажав соответствующую кнопку в поле "Мои проекты", а также из вкладки "Мои проекты" Личного кабинета. (Рис. №3.1.).
Б) При нажатии на кнопку "Открыть", данные зарегистрированного проекта отображаются автоматичеcки
В) Нажмите кнопку "Запустить".
Работа с результатом обработки ET TermExtract.
4.1 Общие данные.
Результаты обработки отображаются в виде таблицы данных, которая содержит:
А) Список отобранных трех, двух и односоставных единиц анализа — колонка "Элемент".
Б) Список морфологически нормализованных единиц анализа в форме единственного числа и им. падежа (в случае обработки файла на языке, в котором есть система склонения) — колонка "Стем".
В) Количественное значение частоты встречаемости трех, двух и односоставных элементов в загруженном тексте — колонка "Частота". (Рис. №4.)
* Примечание: очередность представления в таблице выгрузки начинается с трехсоставных элементов. Группы выдачи элементов маркированы.
4.2 Дополнительные возможности.
А) ET TermExtract позволяет формировать отдельный список аббревиатур, которые содержаться в анализируемом тексте. Для выгрузки данных нажмите кнопку "Показать файл с аббревиатурами" (Рис. №4.2).
Б) Результаты обработки отображаются в виде таблицы данных, которая содержит аббревиатуру — колонка "Элемент", количественное значение частоты встречаемости в тексте — колонка "Частота".
* Примечание: количественные значения частотности аббревиатур отображаются от наибольшего к наименьшему. При анализе частотности аббревиатур, заданное пороговое значение встречаемости не учитывается.
4.3 Редактирование данных.
Кликните на поле колонки "Элемент" / "Стем", в котором отображается слово или словосочетание для вызовапанели визуального редактора, с помощью которого возможно выполнить различные действия по форматированию, например: (Рис. №4.5)
* Примечание: правки могут быть внесены непосредственно в таблицу результатов.
4.4 Сохранение и выгрузка данных.
А) Для сохранения и выгрузки данных в виде таблицы,нажмите на кнопку "Сохранить результат в формате .xls". (Рис. №4.6).
Б) Для сохранения и выгрузки данных в формате .tmx, нажмите кнопку "Сохранить файл в формате .tmx".