TextKit — Программа для быстрой подготовки контента и публикации в CMS 

 

Пакетный импорт HTML, TXT, MS Word (doc, docx, rtf)

Пакетный импорт HTML, TXT и MS Word-файлов осуществляется в одном окне.

Кликаем по иконке «Импорт» на «Основной панели» и выбираем «Пакетный импорт».

Импорт может осуществляться как в корень проекта, так и в определённую директорию.

Есть возможность сохранить введённые данные как профиль, чтобы потом импортировать файлы с такими же настройками.

Пакетный импорт HTML

Импорт статей может осуществляться:

  1. Из подготовленного Word-файла или HTML, где H1 (заголовок 1 в ворде) — это рубрика, а H2 (заголовок 2 в ворде) — это название записи.
  2. Когда 1 файл — это одна статья (при этом заголовки статей выбираются из имени файла, из тега Title, из тегов H или по шаблону).
  3. По шаблону.

Есть возможность извлечение из текста обозначенных меток (на скриншоте видно что мы выбираем метки обрамлённые тегом H3).

textkit079

После разбивки статей и формирования заголовков производится очистка контента от мусора.

Пакетный импорт TXT

Разбивка статей при импорте TXT осуществляется как:

  1. 1 файл — это одна статья.
  2. Каждый файл разбивается на статьи по разделителю.

При этом заголовки для записей берутся из названия файла, по первой строчке файла или случайно.

Если стоит галочка «Разбивать абзацы по пустой строке»,  то параграфы в статье формируются по пустым строкам.

Очистка контента происходит перед разбивкой статей и формированием заголовков.

textkit086

Импорт MS Word-файлов (doc, docx, rtf)

При импорте Word-файлов происходит автоматическое преобразование файлов в HTML, а потом импорт.

textkit095

Для этого используется встроенный пакетный конвертер MS Word-файлов. Конвертер можно использовать и отдельно («Инструменты» — «Конвертер MS Word в HTML»).

textkit090

Очистка контента происходит перед разбивкой статей и формированием заголовков.

Внимание!

Для использования конвертера в системе должен быть установлен Microsoft Word не ниже версии 2003.

Очистка контента при пакетном импорте

При пакетном импорте производится «Очистка контента».

  • Удаляются теги, кроме указанных.
  • Очищаются атрибуты у тегов (например, различные атрибуты Word-HTML — <span class=GrameE>).
  • Удаляются ненужные теги Word.
  • Исправляется типографика (удаляются ненужные пробелы, табуляция; проставляются пробелы после знаков препинания)
  • С помощью инструмента «Поиск и замена», можно настроить глубокую очистку импортируемого контента (можно использовать регулярные выражения, сохранять и загружать список).

textkit089