LEEET.net

НОВОЕ НА САЙТЕ

Обзор устро­йства для чте­ния книг iRiver Story: Белая ладья

Обзор устро­йства для чте­ния книг PocketBook 360°

Обзор устро­йства для чте­ния книг Sony Re­ader PRS-600

Добавлен еще обзор устро­йства для чте­ния книг Amazon Kindle 2

Описание тех­но­ло­гии Bluetooth

История компании Canon

Обзор устро­йства для чте­ния книг Amazon Kindle 2

История компании Ama­zon

ABC Amber LIT – кон­вер­тер файлов LIT фор­мата

ShortBook – про­грам­ма для чте­ния книг iPhone

DjVu Do­cu­ment Exp­ress Edi­tor Pro – про­грам­ма для соз­да­ния и про­смо­тра DjVu-до­ку­мен­тов

Немного инфо­рма­ции о се­нсо­рных экра­нах

Fb2Fix & FF Shell – кор­рек­тор fb2-книг с Либ­русе­ка

Русификация устро­йства для чте­ния книг Sony Re­ader PRS-700

STDU Converter – про­грам­ма для кон­вер­тации файлов в фор­мате DjVu или TIFF в PDF

CHM Decoder – про­грам­ма для кон­вер­тации файлов в фор­мате CHM

Macintosh Book Re­a­der – про­грам­ма для чте­ния книг (Win­dows, Linux, Ma­cin­tosh)

µBook Reader – про­грам­ма для чте­ния книг (Windows)

История корпорации Sony

iPhone TextReader – про­грам­ма для чте­ния книг iPhone

Программа Fiction­Book Editor 2.0 – для созда­ния и редак­тирова­ния Fb2 фай­лов

Обзоры и описание устро­йства для чте­ния книг Sony Reader PRS-700

Обзоры и описание устро­йства для чте­ния книг PocketBook 301

Купить PocketBook 301 Plus

Inscenic Smart DjVu – про­грам­ма для чте­ния файлов DjVu (КПК)

Foxit Reader – про­грам­ма чте­ния файлов PDF (Windows)

Программа Yo – пред­назна­че­на для ёфи­ка­ции рус­ских текст­ов (Win­dows)

Программа для чте­ния книг PocketDjVu (Win­dows Mo­bi­le)

Brava Reader – про­грам­ма для чте­ния файлов PDF (Win­dows)

ведение бухучета Ростов

  Информация / Статьи / Создание электронных книг в формате FictionBook 2.1

Михаил Кондратович
(Юзич)
СОЗДАНИЕ ЭЛЕКТРОННЫХ КНИГ В ФОРМАТЕ
FictionBook 2.1:
практическое руководство

Приложения

Приложение A
Линки

 Библиотеки, поддерживающие FictionBook

http://www.fictionbook.ru — FictionBook.lib;

http://lib.aldebaran.ru — библиотека Альдебарана; Крупнейшая, на момент написания книги, библиотека Рунета.

http://www.fenzin.org — библиотека «Фензин»; Специализируется на фантастике и фэнтэзи.

http://www.litportal.ru — библиотека Литпортал.

http://www.fanlib.ru — одна из новейших библиотек, по содержимому — аналог Альдебарана. Создавалась в пику постепенному переводу сетевых библиотек на платную основу, и, хотя обычная для библиотек Рунета болезнь под названием «удаление книг под давлением кого-нить влиятельного» поразила и ее, там можно найти некоторые книги, недоступные на FictionBook.lib или Альдебаране.

http://www.lib.rus.eco — Либрусек, русскоязычная библиотека в Эквадоре. Последний бастион свободных e-book…

http://publ.lib.ru — «Публичная Библиотека». Очень много djvu-версий журналов, технических книг. Вместе с тем, здесь регулярно появляются и тексты обычных книг, в основном, выходивших в CCCP.

http://www.litres.ru — «ЛитРес». Платные электронные книги.

Библиотеки, в которых регулярно появляются новинки:

http://www.infonata.org — Всемирно известный NataHaus. Крупнейший книжный варезный блог.

http://www.lib.ru — библиотека Максима Мошкова. К сожалению, в последние годы, стараниями поборников копирайта, сильно захирела.

http://www.koob.ru — библиотека «Куб». Уникальное собрание текстов по психологии и самосовершенствованию.

http://www.oldmaglib.com — «Библиотека Старого Чародея». В основном, переводная фантастика. Что отрадно, тоже плюют на копирайт и его поклонников.

Программы-читалки

http://haali.cs.msu.ru/pocketpc — Haali Reader 2.0

http://www.coolreader.org — CoolReader 2.0, 3.0

http://alreader.kms.ru — AlReader 2.5

http://www.fbreader.org — FBReader 0.89

Программы-конверторы

http://www.gribuser.ru/xml/fictionbook/2.0/software/Any2FB2.exe — Any2FB2

http://home.arcor.de/fb.tools/ — Doc2FB.

http://dikbsdsda.mylivepage.ru/file — конвертор ExportToFB21 для Open Office.

Программы для редактирования FB2

http://haali.cs.msu.ru/pocketpc/scripts.html.ru — FB Tools

http://www.gribuser.ru/xml/fictionbook/2.1/FBTools_update.zip — обновление FB Tools

Прочие программы для FB2

http://booki.h12.ru/ — программа Booki.

http://www.assembla.com/wiki/show/jfblibpublic — библиотекарь JEFLibrarian.

Программы для работы с графикой.

http://www.xnview.com — XnView, просмотрщик-конвертор.

http://www.yafla.com — PureJPEG, чистка картинок JPEG от лишней информации.

Прочие программы

http://www.grigsoft.com — Compare It, сравнение текстовых файлов.

Информация по JavaScript

http://msdn.microsoft.com/workshop/author/dhtml/reference/dhtml_reference_entry.asp — MSDN Library.

http://www.w3schools.com/js — полезные советы по JavaScript.

Приложение Б
Техническое задание на написание читалки (ридера)

Ридер должен включать в себя два модуля:

1. Библиотечный модуль — для персонального компьютера.

2. Непосредственно ридер — для персонального компьютера и КПК.

Библиотечный модуль

Общие требования

1. Информация берется из дескрипшина файлов fb2 или fb2.zip.

2. В настройках указывается директория, содержащая книги.

3. Библиотека должен автоматически сканировать директорию, содержащая книги при каждом вызове.

 

Внешний вид

В форме необходимы следующие поля:

   1. Автор книги

   2. Название книги

   3. Серия

   4. Жанр

   5. Обложка

   6. Аннотация

   7. Поиск

Кнопки:

   1. Читать

   2. Послать в КПК

 

Логика работы

В поле автора выбираем автора из списка.

В поле жанра можно выбрать все жанры или определенный. При выборе определеного жанра в поле автора присутствует список только тех авторов, книги которых есть в этом жанре.

В поле серии — список серий, присутствующих в библиотеке. При выборе конкретной серии, в поле авторов высвечивается автор серии, в поле книги — перечень книг только этой серии.

При выборе автора появляется список его книг.

При выборе книги появляется обложка и аннотация.

По кнопке «читать» попадаем в ридер.

Ридер

Общие требования

1. Должен понимать как просто формат fb, так и заархивированный (zip).

2. Должен игнорировать все незнакомые тэги внутри pType элементов (см. схему) и внутри заголовка.

3. Ридер волен реагировать на незнакомые тэги в других местах документа по своему усмотрению.

4. Ридер, по возможности, должен сообщать об отсутствии обязательных тэгов.

 

Форматирование

1. Должен иметь возможность работы с подключаемыми стилевыми файлами.

2. Должен запоминать, к какому документу какой стиль привязан.

 

Настройки

1. Настройки автоскроллинга (листание экрана, построчный скроллинг, плавный скроллинг)

 

(По материалам старого форума FictionBook)

 

Необязательные, но весьма полезные, дополнительные возможности («фичи»).

1. Разбиение текста на условные страницы (с возможностью установить объем такой страницы в килобайтах) (реализовано: AlReader)

2. Показ времени, затраченного на прочтение книги, с прогнозированием оставшегося. (реализовано: PalmFiction)

3. Возможность экспорта книги в стандартные форматы: TXT, HTML, RTF (реализовано: CoolReader, AlReader);

4. Возможность печати книги, желательно компактным буклетом. Или экспорт в PDF. (нигде не реализовано. Мечта небесного цвета автора этой книги.);

5. Возможность правки текста. (реализовано: AlReader);

6. Сноски показываются, как всплывающие окна. (реализовано: пока нигде); или размещаются внизу виртуальной страницы (реализовано: CoolReader).

7. Возможность «пришивания» компактного запускаемого просмотрщика к книге (или, вернее, книги к такому просмотрщику, генерация «самопросматривающихся» книг). (реализовано: пока нигде. Еще одна мечта небесного цвета.).

Приложение В
Список жанров FictionBook

В FB 2.1 определен следующий список жанров:

Значение <genre> — Название — Название по-русски

* Science Fiction & Fantasy — (Научная фантастика и Фэнтези)

sf_history — Alternative history — Альтернативная история

sf_action — Action — Боевая фантастика

sf_epic — Epic — Эпическая фантастика

sf_heroic — Heroic — Героическая фантастика

sf_detective — Detective — Детективная фантастика

sf_cyberpunk — Cyberpunk — Киберпанк

sf_space — Space — Космическая фантастика

sf_social — Social-philosophical — Социально-философская фантастика

sf_horror — Horror & mystic — Ужасы и Мистика

sf_humor — Humor — Юмористическая фантастика

sf_fantasy — Fantasy — Фэнтези

sf — Science Fiction — Научная Фантастика

* Detectives & Thrillers (Детективы и Триллеры)

det_classic — Classical detectives — Классический детектив

det_police — Police Stories — Полицейский детектив

det_action — Action — Боевик

det_irony — Ironical detectives — Иронический детектив

det_history — Historical detectives — Исторический детектив

det_espionage — Espionage detectives — Шпионский детектив

det_crime — Crime detectives — Криминальный детектив

det_political — Political detectives — Политический детектив

det_maniac — Maniacs — Маньяки

det_hard — Hard-boiled — Крутой детектив

thriller — Thrillers — Триллер

detective — Detectives — Детектив, не относящийся в прочие категории.

* Prose (Проза)

prose_classic — Classics prose — Классическая проза

prose_history — Historical prose — Историческая проза

prose_contemporary — Contemporary prose — Современная проза

prose_counter — Counterculture — Контркультура

prose_rus_classic — Russian classics prose — Русская классическая проза

prose_su_classics — Soviet classics prose — Советская классическая проза

* Romance (Любовные романы)

love_contemporary — Contemporary Romance — Современные любовные романы

love_history — Historical Romance — Исторические любовные романы

love_detective — Detective Romance — Остросюжетные любовные романы

love_short — Short Romance — Короткие любовные романы

love_erotica — Erotica — Эротика

* Adventure (Приключения)

adv_western — Western — Вестерн

adv_history — History — Исторические приключения

adv_indian — Indians — Про индейцев

adv_maritime — Maritime Fiction — Морские истории

adv_geo — Travel & geography — Путешествия и география

adv_animal — Nature & animals — Природа и животные

adventure — Other — Прочие приключения (то, что не вошло в другие категории)

* Children's (Детское)

child_tale — Fairy Tales — Сказка

child_verse — Verses — Детские стихи

child_prose — Prose — Детская проза

child_sf — Science Fiction — Детская фантастика

child_det — Detectives & Thrillers — Детские остросюжетные

child_adv — Adventures — Детские приключения

child_education — Educational — Детская образовательная литература

children — Other — Прочая детская литература (то, что не вошло в другие категории)

* Poetry & Dramaturgy (Поэзия, Драматургия)

poetry — Poetry — Поэзия

dramaturgy — Dramaturgy — Драматургия

* Antique literature (Старинное)

antique_ant — Antique — Античная литература

antique_european — European — Европейская старинная литература

antique_russian — Old russian — Древнерусская литература

antique_east — Old east — Древневосточная литература

antique_myths — Myths. Legends. Epos — Мифы. Легенды. Эпос

antique — Other — Прочая старинная литература (то, что не вошло в другие категории)

* Scientific-educational (Наука, Образование)

sci_history — History — История

sci_psychology — Psychology — Психология

sci_culture — Cultural science — Культурология

sci_religion — Religious studies — Религиоведение

sci_philosophy — Philosophy — Философия

sci_politics — Politics — Политика

sci_business — Business literature — Деловая литература

sci_juris — Jurisprudence — Юриспруденция

sci_linguistic — Linguistics — Языкознание

sci_medicine — Medicine — Медицина

sci_phys — Physics — Физика

sci_math — Mathematics — Математика

sci_chem — Chemistry — Химия

sci_biology — Biology — Биология

sci_tech — Technical — Технические науки

science — Other — Прочая научная литература (то, что не вошло в другие категории)

* Computers & Internet (Компьютеры и Интернет)

comp_www — Internet — Интернет

comp_programming — Programming — Программирование

comp_hard — Hardware — Компьютерное «железо» (аппаратное обеспечение)

comp_soft — Software — Программы

comp_db — Databases — Базы данных

comp_osnet — OS & Networking — ОС и Сети

computers — Other — Прочая околокомпьтерная литература (то, что не вошло в другие категории)

* Reference (Справочная литература)

ref_encyc — Encyclopedias — Энциклопедии

ref_dict — Dictionaries — Словари

ref_ref — Reference — Справочники

ref_guide — Guidebooks — Руководства

reference — Other — Прочая справочная литература (то, что не вошло в другие категории)

* Nonfiction (Документальная литература)

nonf_biography — Biography & Memoirs — Биографии и Мемуары

nonf_publicism — Publicism — Публицистика

nonf_criticism — Criticism — Критика

design — Art & design — Искусство и Дизайн

nonfiction — Other — Прочая документальная литература (то, что не вошло в другие категории)

* Religion & Inspiration (Религия и духовность)

religion_rel — Religion — Религия

religion_esoterics — Esoterics — Эзотерика

religion_self — Self-improvement — Самосовершенствование

religion — Other — Прочая религионая литература (то, что не вошло в другие категории)

* Humor (Юмор)

humor_anecdote — Anecdote — Анекдоты

humor_prose — Prose — Юмористическая проза

humor_verse — Verses — Юмористические стихи

humor — Other — Прочий юмор (то, что не вошло в другие категории)

* Home & Family (Домоводство (Дом и семья))

home_cooking — Cooking — Кулинария

home_pets — Pets — Домашние животные

home_crafts — Hobbies & Crafts — Хобби и ремесла

home_entertain — Entertaining — Развлечения

home_health — Health — Здоровье

home_garden — Garden — Сад и огород

home_diy — Do it yourself — Сделай сам

home_sport — Sports — Спорт

home_sex — Erotica & sex — Эротика, Секс

home — Other — Прочее домоводство (то, что не вошло в другие категории)

Приложение Г
Список возможных языков

Ниже приведены коды языков, которые можно прописывать в тэгах <lang> и <src-lang>.

Здесь приведены только основные кодировки, полный список содержится в стандарте ISO 639:

abk — ab — Абхазский

aze az Азербайджанский

alb/sqi sq Албанский

eng en Английский

arm/hye hy Армянский

ba Башкирский

bel be Белорусский

bul bg Болгарский

hun hu Венгерский

vie vi Вьетнамский

dut/nla nl Голландский

ell/gre el Греческий современный (1453-)

dan da Данийский

grc Древнегреческий (до 1453)

heb he Иврит

esl/spa es Испанский

ita it Итальянский

kaz kk Казахский

kir ky Киргизский

chi/zho zh Китайский

kor ko Корейский

lat la Латинский

lav lv Латвийский

lit lt Литовский

mac/mak mk Македонский

mol mo Молдавский

mon mn Монгольский

deu/ger de Немецкий

mul Несколько языков

und Неопределенный

nor no Норвежский

fas/per fa Персидский

pol pl Польский

por pt Португальский

rus ru Русский

san sa Санскрит

slk/slo sk Словацкий

slv sl Словенский

tgk tg Таджикский

tat tt Татарский

tur tr Турецкий

uzb uz Узбекский

ukr uk Украинский

cym/wel cy Уэльский

fin fi Финский

fra/fre fr Французский

che Чеченский

ces/cze cs Чешский

hr Хорватский

sve/swe sv Шведский

epo eo Эсперанто

est et Эстонский

jpn ja Японский

 

Приложение Д
Регулярные выражения

==Важно!========================

Это описание было заимствовано из документации к программе Дмитрия Грибова СlearTXT. Реализация регулярных выражений в FB Editor  несколько отличается от СlearTXT. Поэтому, эта документация справедлива для FBE лишь с некоторыми оговорками.

Хотя, в связи с тем, что регулярные выражения используются не только в FB Editor, но и в других программах, упомянутых в книге, было принято волевое решение привести это описание здесь полностью.

===============================

Регулярные выражения — широко используемый способ описания шаблонов для поиска текста и проверки соответствия шаблону. Специальные метасимволы позволяют определять, например, что Вы ищете подстроку в начале входной строки или определенное число повторений подстроки.

На первый взгляд регулярные выражения выглядят страшновато (ну хорошо, на второй — еще страшнее ;) ). Однако вы очень быстро оцените всю их мощь. Они избавят вас от длительного и нудного ручного поиска/замены/правки, а в некоторых случаях дадут вам возможности, реализация которых «ручками» даже не придет вам в голову.

СИМВОЛЫ

Это простейшие случаи подстановок.

\xNN — символ с шестнадцатеричным кодом NN

\t — табуляция (HT/TAB), можно также \x09

\n — новая строка (NL), можно также \x0a

\r — возврат каретки (CR), можно также \x0d

 

Пример: \r\n — поиск разрыва строки (Windows, DOS).

Поиск «одного из» — перечни

Можно определить перечень, заключив символы в «[]». Перечень будет совпадать с любым одним символом, перечисленным в нем.

Если первый символ перечня (сразу после «[») — «^», то такой перечень совпадает с любым символом, не перечисленным в перечне.

Внутри перечня символ «-» может быть использован для определения диапазонов символов, например, a-z представляет все символы между «a» и «z», включительно.

Если необходимо включить в перечень сам символ «-», его нужно поместить в начало или конец перечня или предварить «\». Если необходимо поместить в перечень сам символ «]», поместите его в самое начало или предварите «\».

Примеры:

п[иа]р — будут найдены буквосочетания «пир» и «пар». Но, допустим, не «пор».

п[^иа]р — будут найдены буквосочетания «п…р» с любым символом между «п» и «р», кроме «и» и «а».

 

[-az] — «a», «z» и «-»

[az-] — «a», «z» и «-»

[a\-z] — «a», «z» и «-»

[a-z] — все 26 малых латинских букв от «a» до «z»

[\n-\x0D] — #10, #11, #12, #13

[\d-t] — цифра, «-» или «t»

[]-a] — символ из диапазона «]»..«a»

Оговорка. В FB Editor в режиме исходника перечни, содержащие кирииллицу ФУНКЦИОНИРУЮТ НЕПРАВИЛЬНО.

Метасимволы

Метасимволы — это специальные символы, являющиеся важнейшим понятием в регулярных выражениях. Существует несколько групп метасимволов.

• Разделители строк (начало строки, конец строки и т.п.)

• Стандартные перечни символов (цифры, буквы и цифры и т.п.)

• Границы слов (показывают, что вхождение должно быть на границе слова)

• Повторения (указывает, сколько раз должна присутствовать последовательность)

• Варианты (позволяет указать набор масок, с любой из которых должен совпадать текст)

• Подвыражения (используются при замене)

• Обратные ссылки (способ обратиться к подвыражениям при поиске)

Метасимволы — разделители строк и границы

Разделители и границы

^ — начало строки

$ — конец строки

\A — начало текста

\Z — конец текста

\b — Совпадает на границе слова

\B — Совпадает НЕ на границе слова

 

Оговорка. В FB Editor (и, скорее всего, в большинстве других программ) метасимволы \b и \B не реагируют на кириллицу.

 

Примеры:

^Все — Находит все строки в тексте, начинающиеся словом «Все»

\bмир — Находит все слова, начинающиеся буквосочетанием «мир». Слова будут найдены и в начале строк, и в середине.

^\x20$ — Находит все строки в тексте, состоящие из единственного пробела.

 

Метасимволы — стандартные перечни символов

. (точка) — Любой символ

\w — буквенно-цифровой символ или "_"

\W — не \w

\d — цифровой символ

\D — не \d

\s — любой «пробельный» символ: [\x20\t\n\r\f]

\S — не \s

 

Оговорка. В FB Editor (и, скорее всего, в большинстве других программ) метасимволы \w и \W не реагируют на кириллицу.

 

Метасимвол «.» по умолчанию совпадает с любым символом, однако, если выключить модификатор s ((?-s), синтаксис см. ниже), то «.» не будет совпадать с разделителями строк.

Стандартные перечни \w, \d и \s можно использовать и внутри перечней символов.

Примеры:

—foob[\w\s]r — —находит «foobar», «foob r», «foobbr» но не «foob1r», «foob=r»

—\+\d (\d\d\d) \d\d\d-\d\d-\d\d — —Находит телефон в формате «+7 (095) 555-55-55»

 

Метасимволы — повторения

После любого элемента регулярного выражения может следовать очень важный тип метасимвола — повторитель. Используя их Вы можете определить число допустимых повторений предшествующего символа, метасимвола или подвыражения.

Указание числа вхождений

* — ноль или более раз (может быть «жадным»), то же что {0,}

+ — один или более раз (может быть «жадным»), то же что {1,}

? — ноль или один раз (может быть «жадным»), то же что {0,1}

{n} — точно n раз (может быть «жадным»)

{n,} — не менее n раз (может быть «жадным»)

{n,m} — не менее n но не более m раз (может быть «жадным»)

*? — ноль или более раз («не жадный»), то же что {0,}?

+? — один или более раз («не жадный»), то же что {1,}?

?? — ноль или один раз («не жадный»), то же что {0,1}?

{n}? — точно n раз («не жадный»)

{n,}? — не менее n раз («не жадный»)

{n,m}? — не менее n но не более m раз («не жадный»)

 

Т.о. {n,m} задает минимум n повторов и максимум — m. Повторитель {n} эквивалентен {n,n} и задает точно n повторов. Повторитель {n,} задает минимум n повторов. Теоретически величина параметров n и m не ограничена, но рекомендуется не задавать большие значения, поскольку в некоторых ситуациях это может потребовать существенных затрат времени и ОЗУ при обработке такого повторителя.

Небольшое пояснение по поводу «жадности». «Жадные» варианты повторителей пытаются захватить как можно большую часть входного текста, в то время как «не жадные» — как можно меньшую. Например, b+ как и b* примененные к входной строке «abbbbc» найдут «bbbb», в то время как b+? найдет только «b», а b*? — вообще — пустую строку; b{2,3}? найдет «bb», в то время как b{2,3} найдет «bbb».

По умолчанию, в FB Editor повторители могущие быть жадными, являются таковыми.

Примеры:

foob.*r — находит «foobar», «foobalkjdflkj9r» и «foobr»

foob.+r — находит «foobar», «foobalkjdflkj9r» но не «foobr»

foob.?r — находит «foobar», «foobbr» и «foobr» но не «foobalkj9r»

fooba{2}r — находит «foobaar»

fooba{2,}r — находит «foobaar», «foobaaar», «foobaaaar» и т.д.

fooba{2,3}r — находит «foobaar», или «foobaaar» но не «foobaaaar»

((\+\d )?\(\d{3}\) )?(\d{3}(-\d\d){2}) — Находит номера телефонов в форматах «+7 (095) 555-55-55», «(095) 555-55-55», «555-55-55». Это сложный пример, и в нем используется группировка скобками. Подробнее о применении скобок см. ниже.

(?g)(<p>[^-].{5,59}</p>(\r\n)){4,} — Этот пример найдет нам стихи — цепочки (из 4-х и более) следующих друг за другом коротких (от шести до шестидесяти символов) параграфов. Такой вид (много коротких параграфов) характерен, например, для стихов. Первый знак не должен быть длинным тире, так как серии коротких параграфов характерны и для диалогов, а нам диалоги не нужны. Обратите внимание, что пришлось использовать модификатор жадности, так как в «не жадном» режиме мы бы нашли только четыре первых строфы.

Метасимволы — варианты

Вы можете определить перечень вариантов, используя метасимвол «|» для их разделения, например, fee|fie|foe найдет «fee» или «fie» или «foe», (так же как f(e|i|o)e). В качестве первого варианта воспринимается все от предыдущего метасимвола ( или [ или от начала выражения до первого метасимвола «|», в качестве последнего — все от последнего «|» до конца выражения или до ближайшего метасимвола). Обычно, чтобы не запутаться, набор вариантов всегда заключают в скобки, даже если без этого можно было бы обойтись.

Варианты пробуются начиная с первого и попытки завершаются сразу же как удастся подобрать такой, при котором совпадет вся последующая часть выражения. Это означает, что варианты не обязательно обеспечат «жадное» поведение. Например, если применить выражение foo|foot ко входной строке «barefoot», то будет найдено «foo» так это первый вариант который позволил совпасть всему выражению.

Обратите внимание, что метасимвол | воспринимается как обычный символ внутри перечней символов, например, [fee|fie|foe] означает ровно то же самое что и [feio|].

<(p|div)>.*</(p|div)> — найдет все корректно закрытые параграфы. Так же найдутся и включения вида <p>TEXT</div>, так что это выражение можно применять только на однородном тексте. Как альтернативный вариант можно предположить (<div>.*</div>|<p>.*</p>)

Заметьте, что применив то же выражение в жадном режиме (?g)<(p|div)>.*</(p|div)> мы не найдем ничего полезного.

 

Оговорка. Выражения с метасимволом «|» в FB Editor в режиме исходника НЕ ФУНКЦИОНИРУЮТ.

 

Метасимволы — подвыражения

У скобок в регулярных выражениях двоякая функция

1. Скобки позволяют группировать элементы (аналогично математическому использованию)

2. Скобки выделяют в исходном тексте подвыражения, на которые можно ссылаться при замене.

Вы можете обратиться к любому подвыражению в строке замены используя его номер. Подвыражения нумеруются слева направо, в порядке появления открывающих скобок. Ссылка осуществляется в виде $N, где N-номер.

Примеры группировки:

(проба){8,10} — находит строку содержащую 8, 9 или 10 копий «проба»

про([0-9]|б+)а — находит «про0а», «про1а» , «проба», «пробба», и т.д.

Примеры замены:

<p>(.*)</p> —>>— <div>$1</div> — Заменит все параграфы на разделы

((\+\d )?\(\d{3}\) )?(\d{3}(-\d\d){2}) —>>— $3 — Найдет в любом телефонном номере вида «+7 (095) 555-55-55» последнюю часть «555-55-55»

(?g)([\s\(]|\A|<br>)(http://|ftp://|https://)([^\s\)"'<>]+) —>>— $1<a href="$2$3">$2$3</a> — Такая замена преобразует все URL, встреченные в тексте, в гиперссылки.

(?g)([\s\(]|\A|<br>)(www.)([^\s\)"'<>]+)—>>—$1<a href="http://$2$3"$target>$2$3</a> — Преобразует все строки типа www.domain.root в гиперссылки

 

Метасимволы — обратные ссылки

Метасимволы от \1 до \9 воспринимаются как обратные ссылки. \N совпадает с ранее найденным подвыражением #N. В отличие от случая с заменой, где используются переменные $N, обратные ссылки можно применять в выражении поиска.

Примеры группировки:

(.)\1+ — находит «aaaa» и «cc»

(.+)\1+ — также находит «abab» и «123123»

(['"]?)(\d+)\1 — находит «"13"» (в дв.кавычках), или «'4'» (в один.кавычках) или 77 (без кавычек)

 

Модификаторы

Модификаторы служат для изменения режимов работы регулярных выражений. Они вводятся в виде (?imsgr-imsgr). Если модификатор вписан после минуса — он отключается, если нет — включается. Модификаторы подвержены группировке (в Perl нет), можно применить модификатор для отдельного участка выражения (см. пример).

Модификаторы:

i — Регистро-независимый режим. Использует выбранный в ОС язык по умолчанию. По умолчанию выключено.

m — Воспринимать входной текст как многострочный, при этом метасимволы ^ и $ будут совпадать не только в начале и конце текста в целом, но и в начале и в конце всех имеющихся в тексте строк (см. также Разделители строк). По умолчанию включено.

s — Воспринимать входной текст как одну строку. При этом метасимвол «.» совпадает с любым символом, если же этот модификатор выключен, то он не совпадает с разделителями строк (см.также Стандартные перечни символов). По умолчанию включено.

g — Включая его Вы переключаете все повторители в «жадный» режим. По умолчанию включено.

r — Модификатор предназначенный для русского языка. Если включен, то диапазоны вида а-я включают также букву «ё», А-Я включают «Ё», а а-Я включает вообще все русские буквы. По умолчанию включено.

Примеры группировки:

(?i)Saint-Petersburg — находит «Saint-petersburg» и «Saint-Petersburg»

(?i) — Saint-(?-i)Petersburg — находит «Saint-Petersburg» но не «Saint-petersburg»

(?i)(Saint-)?Petersburg — находит «Saint-petersburg» и «saint-petersburg»

((?i)Saint-)?Petersburg — находит «saint-Petersburg», но не «saint-petersburg»

Оговорка. В FB Editor модификаторы НЕ ФУНКЦИОНИРУЮТ.

При подготовке приложения использовалась документация к ClearTXT (автор — Алексей Сорокин).

 

Приложение E
Описание Base64

Этот алгоритм был разработан для представления произвольных последовательностей байтов в форму, читаемую для человека. Кодирующий и декодирующий алгоритмы очень просты, но закодированные данные примерно на 33% больше, чем некодированные. Этот метод идентичен тому, который используется в приложениях PEM (Privacy Enhanced Mail), описанной в RFC 1421 с одним отличием: base64 не приемлет встроенного «чистого» текста.

Base64 использует 65-символьный поднабор из US-ASCII, выделяя 6 бит на каждый печатный символ. (65-й символ «=» используется для обозначения функции спец. обработки).

Этот поднабор имеет важное свойство: он идентичен всем версиям языковой кодировки ISO 646, включая US ASCII, а также всем версиям EBCDIC. Другие популярные механизмы кодирования (uuencode, base85 — часть уровня 2 PostScript) не разделяют этих свойств и поэтому не удовлетворяют требованиям переносимости для двоичных данных электронной почты.

Процесс кодирования преобразует 3 входных символа в виде 24-битной группы, обрабатывая их слева направо. Эти группы затем рассматриваются как 4 соединенные 6-битные группы, каждая из которых транслируется в одиночный символ алфавита base64. При кодировании base64, входной поток байтов должен быть упорядочен старшими битами вперед.

Каждая 6-битная группа используется как индекс для массива 64-х печатных символов. Символ, на который указывает значение индекса, помещается в выходную строку. Эти символы выбраны так, чтобы быть универсально представимыми и исключают символы, имеющие специальное значение для SMTP-транспорта («.», CR, LF) и для синтаксиса вложенных тел MIME («-»).


Таблица: Алфавит Base64


Выходной поток (закодированные байты) должен иметь длину строк не более 76 символов. Все признаки перевода строки и другие символы, отсутствующие в таблице 1, должны быть проигнорированы декодером base64. Среди данных в Base64 символы, не перечисленные в табл. 1, переводы строки и т.п. должны говорить об ошибке передачи данных, и, соответственно, почтовая программа должна оповестить пользователя о ней.

Если в хвосте потока кодируемых данных осталось меньше, чем 24 бита, справа добавляются нулевые биты до образования целого числа 6-битных групп. А до конца 24-битной группы остается от 0 до 3-х недостающих 6-битных групп, вместо каждой из которых ставится символ-заполнитель «=». Поскольку весь входной поток представляет собой целое число 8-битных групп (т.е., просто байтных значений), то возможны лишь следующие случаи:

(1) входной поток как раз оканчивается 24-битной группой. В таком случае, выходной поток будет оканчиваться четырьмя символами Base64 без символа «=»;

(2) хвост входного потока имеет длину 8 бит. Тогда в конце выходного кода будут два символа Base64, с добавлением двух символов «=»;

(3) хвост входного потока имеет длину 16 бит. Тогда в конце выходного будут стоять три символа Base64 и один символ «=».

Т.к. символ «=» является хвостовым заполнителем, его появление в теле письма может означать только то, что конец данных достигнут. Но такой гарантии нет, если число переданных битов кратно 24.

Любые бессмысленные последовательности в коде Base64 вроде «=====» должны быть игнорированы.  

Основано на:

Спецификация RFC 1521 «MIME — Multipurpose Internet Mail Extensions. Part one.»

Перевод: Антон Воронин

Приложение Ж
Описание стандарта ISBN

Международное агентство ISBN присваивает идентификатор группы, который обозначает либо группу стран (например, 0 — для англоязычных стран: Великобритании, США, Австралии, Канады, Ирландии и других), либо отдельную страну (например, 933 — для ШР). Количество цифр в идентификаторе группы зависит от годового объема книжной продукции страны.

Идентификаторы группы устанавливается международным агентством ISBN в следующих диапазонах чисел:

0–7

60–94

950–997

9980–9989

99900–99999

<...>

1. Общие положения

1.1. Международный стандартный номер книги — универсальный идентификационный код, проставляемый на книгах и брошюрах.

1.2. В соответствии с ГОСТ 16447-70 «Издания. Термины и определения основных видов»   книга — непериодическое текстовое издание объемом свыше 48 страниц, брошюра — непериодическое текстовое издание объемом свыше четырех, но не более 48 страниц.

<...>

3. Состав и структура ISBN

3.1. Международный стандартный номер книги состоит из аббревиатуры ISBN (независимо от языка издания книги или брошюры),  и 10 цифр.

3.2. Дня обозначения цифровой части ISBN     применяется арабские цифры от 0 до 9. Последняя цифра    ISBN -   контрольная — может быть римской цифрой X, используемой для обозначения числа 10.

3.3. Цифровая часть ISBN состоит из четырех групп цифр, содержащих различное количество цифровых знаков, отделяемых друг от друга дефисом.

Цифровая часть отделяется от аббревиатуры ISBN пробелом.

3.4. Четыре группы цифр ISBN располагаются в следующей последовательности:

1) идентификатор группы;

2) идентификатор издательства;

3) порядковый идентификатор книги;

4) контрольная цифра.

Hапример:  ISBN 5-05-000746-1, где

5 — идентификатор СССР;

06 — идентификатор издательства «Радуга»;

000746 — порядковый идентификатор книги;

1 — контрольная цифра.

3.5. Идентификатор группы устанавливается Международным агентством ISBN.

СССР присвоен однозначный идентификатор 5.

3.6. Идентификатор издательства присваивается Всесоюзной книжной палатой.

Идентификатор издательства вместе с идентификатором группы служит для идентификации издательства на международном уровне.

3.6.1. Идентификаторы издательства могут быть индивидуальными и собирательными.

Советским издательствам присвоены только индивидуальные идентификаторы.

3.6.2. Идентификатор издательства может содержать различное количество цифровых знаков (от двух до семи) в зависимости от объма выпускаемой книжной продукции.

Издательствам с большим объемом книжной продукции присваивается идентификатор с наименьшим количеством цифровых знаков. Издательством с небольшим объемом книжной продукции присваивается идентификатор с большим количеством цифровых знаков. Идентификаторы издательств устанавливается в пределах следующих диапазонов:

двузначные идентификаторы 00 – 19

трехзначные 200 – 609

четырехзначные 7000 – 0499

пятизначные 85000 – 09999

шестизначные 900000 – 949999

семизначные 9500000 – 9997999

3.7. Порядковый идентификатор книги служит для идентификации конкретного издания.

Порядковый идентификатор книги присваивается издательством.

3.7.1. Количество цифровых знаков порядкового идентификатора книги зависит от идентификатора издательства. Порядковый ISBN книги может содержать от одной до шести цифр. с таким расчетом, чтобы вместе с идентификатором группы, издательства и контрольной цифрой ISBN насчитывал десять цифр. Hапример:

ISBN 5-02-000000-0 («Hаука»)

ISBN 5-229-000000-0 («Металлургия»)

ISBN 5-85700-000-0 («Белорус. сов. энцикл.»)

ISBN 5-269-00000-0 («Сов. художник»)

3.0. Контрольная цифра служит для проверки правильности написания цифровой  части ISBN  и вычисляется следующим образом: каждая цифра, входящая в состав ISBN    умножается на числовой весовой коэффициент — от 10 до 2.

Результаты умножений на весовые коэффициент складываются. Сумма произведений делится на модуль 11 — (постоянный делитель).

Из модуля 11 вычитается остаток от деления, который и является контрольной цифрой. Если остатка нет, контрольной цифрой является  0, если остаток 10, он записывается как X. Hапример:

Цифровая часть: 505000746

Весовые коэффициенты, расположенные в порядке убывания:

10 9 8  7 6 5 4  3  2

Результаты умножения на весовые коэффициенты:

50 0 40 0 0 0 28 12 12

Сумма произведений: 50 + 40+ 28 + 12 + 12 = 142

Сумма делится на модуль 142: 11 = 12 + остаток 10

Из модуля вычитается остаток 10: 11-10=1

Результат — контрольная цифра 1

Таким образом, полный ISBN будет:   5-05-000746-1

Из «Инструкции о присвоении Международного стандартного номера книги в СССР» (утверждено 11.02.1987)

www.lib.ru

Назад Содержание  

      © 2008 -2016 LEEET.net