Правила подготовки текстов для конвертирования

 

Текст заканчивается символом "@".

Таблица соответствия символов

 

Текст занчивается знаком "@". Все, что следует после, игнорируется.

Вырезаются следующие символы: "\n", "\r", "/". Таким образом текст склеивается в "одну строку".

После символом пунктуации добавляются пробелы. Смотри ниже. Перед символом пунктуации (т.е. словом и символ) не должно быть пробелов.

Вырезаются все двойные и более пробелы. В результате текст = слова, разделенные одним пробелом.

Дальше режем текст по пробелам на слова и обрабатываем каждое слово.

Слово может состоять из слова и пунктуационного знака сразу за словом:

Пунктуационные символы, которые ищет скрипт
, -- запятая
. -- точка
: -- двоеточие
; -- точка с запятой
? -- вопросительный знак

Символ "Z" означает следующую страницу. Имеет следующий формат "Z проблел? дефис? номер". Пробел в данном случае вырезается, т.е. скрипт работает с форматом "Z дефис? номер". Дефис показатель оборотности/необоротности листа. Имеет значение проблем перед символом "Z". Он показывается, разорвано ли слово посередине (если пробела нет), либо разрыв страницы пришелся на разрыв между словами (если есть пробел перед символом "Z"). Пробем после конструкции "Z дефис? номер" вырезается.

Текст должен начинаться с символа "Z" с номером, чтобы можно было отсчитывать номера страниц.

В случае нахождения сивола "~". Мы имеем дело с ошибочным начертанием. Что мы делаем в этом случае?

Ошибочное написание обозначается символом "~". Либо в начале слова, либо в конце. В этом скрипте это не играет роли, это важно для построения словоуказателя. Следующее слово должно следовать в угловых скобках и давать исправленное написание, либо пустые угловые скобки. В угловых скобках лучше давать именно правильное написание без технических символов типа "Z", "&" etc, но в принципе этот скрипт их обработает нормально, просто все вырежет. Если угловые скобки пустые, то в reg поле идет первое ошибочное написание (это правильно).

Скрипт не тестировался на ситуации ошибочного написания имени, а тем более в случае составного имени.

Ищется комбинация "()". Их может быть несколько в одном слове. Если буква внутри скобок прописью, то добавляется атрибут "overline_cover", если строчная, то "overline".

Ищутся имена -- это слова, помеченные звездочками. Составные имена -- когда несколько слов подряд помечены звездочкой, и между ними нет знаков пунктуации.

Числительные должны заключаться между символами "^", то есть "^.AI^".

Имена собственные отмечаются знаком «*» перед словом.

Если в слове есть символ "#", то отображается титло.

Проихводится замена латинских символов на сущности по приведенной таблице.

 

'U' '&cyr-ou;'
'R' '&cyr-littleyus;'
'+' '&cyr-yat;'
'F' '&cyr-fita;'
'I' '&cyr-i10;'
'W' '&cyr-omega;'
'S' '&cyr-zelo;'
'G' '&cyr-bigyus;'
'D' '&cyr-uk;'
'L' '&cyr-ksi;'
'Q' '&cyr-psi;'
'Я' '&cyr-yota;'

 

Сведение букв в словоуказателе:

 

'E'eng 'Е'rus
'U' 'У'
'D' 'У'
'G' 'У'
'S' 'З'
'F' 'Ф'
'I' 'И'
'R' 'Я'
'W' 'О'
'L' 'КС'
'Q' 'ПС'

Сиглы


Конвертация индеска

Авраамле (2):

АСИ: 85 об/14 ASI _85_ vs

ASI _85_ vs.html

АСВ: 445/1/3, ASV_445-1 ???