F.A.Q. ••• Инструментарий ••• Статьи ••• Ссылки
ОТКАЗ ОТ ПРИЗНАНИЯ ПРЕТЕНЗИЙ:
данный материал публикуется исключительно в образовательных целях. Никакие претензии в связи с ущербом, нарушением прав и т.п. не могут быть предъявлены автору.
Этот сайт находится на стадии первичного наполнения.
F.A.Q.
Q01. Что такое TomeRaider и какой от него прок?
Q02. Где взять словари, руководства и пр. в TR-формате?
Q03. Можно ли свой текст преобразовать в TR-формат и наоборот?
Q04. Меня достал этот баннер! Где взять ключ к Windows-версии?
Q05. У меня вместо русских букв какая-то абракадабра. Пробовал разные шрифты, не помогло!
Q06. Я хочу сделать свой словарь. Где найти описание TR-формата?
Q07. Мой словарь жутко тормозит на Palm. В чем дело?
Q08. При импорте моего текста в TomeRaider выскочило окошко с предупреждением, что сортировка нарушена с такого-то индекса. Как быть?
Q09. Что еще за AWK и нельзя ли без него обойтись?
Q01. Что такое TomeRaider и какой от него прок?
A01. Это мощное приложение для просмотра словарей, энциклопедий, руководств и т.п. в TR-формате. Поддерживает компрессию, индексы, гиперссылки, и некоторые элементы форматирования. Очень быстро работает с большими (десятки мегабайт) объемами данных.
Q02. Где взять словари, руководства и пр. в TR-формате?
A02. Большое количество самых разных текстов в TR-формате доступно на www.memoware.com
Q03. Можно ли свой текст преобразовать в TR-формат и наоборот?
A03. Первое делается стандартными средствами TomeRaider для Windows (File->Import), второе прямо запрещено разработчиками. Но если очень хочется, то пишите нам - посмотрим, что можно сделать.
Q04. Меня достал этот баннер! Где взять ключ к Windows-версии?
A04. Если программа понравилась, то лучше, конечно, заплатить. Для тех, кто все равно платить не станет:
UserName : TomeRaider
UserCode : 1119
Q05. У меня вместо русских букв какая-то абракадабра. Пробовал разные шрифты, не помогло!
A05. И не поможет. Под Win9X кириллица отображается только в левом окне, под NT / W2k / WinXP - не отображается вообще. Открываем TomeRaider.exe в любом hex-редакторе и меняем все вхождения "windows-1252" (без кавычек) на "windows-1251". Теперь правая панель "дружит" с кириллицей.
С левой панелью сложнее. Если длина TomeRaider.exe составляет ровно 1,396,736 байтов, hex-редактором заменяем байты по следующим адресам:
00004DBB: 8D E9
00004DBC: 4C 51
00004DBD: 24 02
00004DBE: 40 00
00004DBF: 51 00
00005011: 90 8D
00005012: 90 4C
00005013: 90 24
00005014: 90 40
00005015: 90 51
00005016: 90 FE
00005017: 90 41
00005018: 90 17
00005019: 90 E9
0000501A: 90 A2
0000501B: 90 FD
0000501C: 90 FF
0000501D: 90 FF
Q06. Я хочу сделать свой словарь. Где найти описание TR-формата?
A06. Описание TRML (очень упрощенной версии HTML) входит в комплект TomeRaider для Windows.
Этих сведений более, чем достаточно чтобы подготовить текстовые данные для последующего импорта в TR-формат.
Q07. Мой словарь жутко тормозит на Palm. В чем дело?
A07. Перед экспортом в PDB-формат (File->HotSync to PalmOS) включите опцию Compile for SD Card.
Q08. При импорте моего текста в TomeRaider выскочило окошко с предупреждением, что сортировка нарушена с такого-то индекса. Как быть?
A08. Придется отсортировать импортируемые данные. Эта необязательная в принципе процедура многократно увеличивает скорость доступа к данным на медленных платформах, например, на PalmOS. Для сортировки я бы рекомендовал воспользоваться скриптом на AWK.
Q09. Что еще за AWK и нельзя ли без него обойтись?
A09. Это язык программирования, разработанный в 1977 году в AT&T Bell Laboratories и предназначенный для обработки (в первую очередь построчной) текстовых потоков. Общий принцип в двух словах: "для текста, подходящего к такой-то маске, применить такое-то действие". Вряд ли существует более удобное средство для удаления из html-файлов "мусора", по-крайней мере, автору такое средство неизвестно. В принципе, альтернативой может служить очень мощный текстовый редактор TextPad. Но те, кто считает, что "лучше день потерять, потом за пять минут долететь", наверняка предпочтут AWK.
Инструментарий
GNU Gawk : версия 3.1.0 (win32) / руководство
GNU Wget : версия 1.8.1 (win32) / руководство
Статьи
Почему именно Wget?
Хотя бы потому, что Wget умеет выбирать URL'ы из txt/html-файлов, при этом количество URL'ов и размер файла практически ничем не ограничены.
Очень часто бывает, что нужная информация "размазана" по большому количеству страниц, или выдается asp/cgi скриптом. В таких случаях довольно просто составить список URL'ов с помощью своего скрипта или "руками". В результате отпадает необходимость в дружелюбном (и ресурсоемком) интерфейсе, зато возникает потребность в элементарном, казалось бы, умении менеджера закачек воспринимать список скачиваемых файлов в простом txt/html формате. К удивлению и огорчению автора выяснилось, ни ReGet, ни Teleport, ни GetRight такой возможностью не обладают. Оговорюсь: заставить ReGet "скушать" текстовый список из нескольких десятков URL'ов нельзя в пакетном режиме, но можно с помощью пункта меню Files->Import queue. Только судя по многочисленным паузам ReGet никак не предназначен для работы с заранее подготовленными огромными списками. Кроме того, всплывает еще одна проблема, решение которой требует множества аллегорических телодвижений. Скачиваемые файлы надо куда-то сохранять. А если все они генерируются одним и тем же asp/cgi скриптом, то предполагаемое имя локального файла будет всегда одним и тем же! Если принудить ReGet дописывать все данные в один общий файл, то придется забыть о параллельной закачке нескольких URL'ов. Другие решения, например, импорт списка URL'ов в ReGet с последующей обработкой WJR-файла таким образом, чтобы каждый файл сохранялся в отдельную директорию, достаточно трудоемки.
В случае с Wget эти проблемы решаются легко и красиво. :) Неуникальность имен файлов обходится с помощью опции '-O filename', которая требует сохранять все данные в один файл, а запуск нескольких экземпляров Wget с отдельным списком URL'ов решает проблему параллельных закачек.
Подробнейшее описание последней версии Wget можно посмотреть здесь, к сожалению, только на английском языке. Впрочем, список действительно необходимых опций невелик:
'-i filename' или '--input-file=filename'
Выбирать URL'ы из filename, при этом указывать URL'ы в командной строке не обязательно. Если же URL'ы заданы и в командной строке и в файле, то первые имеют приоритет. Содержащий список filename не обязательно должен иметь html-формат, это необходимо лишь в том случае, когда задана опция '--force-html'.
'-ologfilename'или '--output-file=logfilename'
Сохранять все сообщения в logfilename. Если эта опция не задана, то сообщения выводятся в stderr.
'-q' или '--quiet'
Отключить вывод сообщений.
'-Ofilename' или '--output-document=filename'
Все скачиваемые документы будут сохраняться в одном и том же файле filename. ВНИМАНИЕ: если этот файл уже существует на момент запуска Wget, он будет предварительно усечен до нулевой длины!
Ссылки
TomeRaider - без комментариев, см. F.A.Q.
Рубрикон - отличный сайт, предоставляющий он-лайн доступ к многочисленным энциклопедиям и словарям, включая 3-е издание Большой Советской Энциклопедии, Энциклопедический словарь Брокгауза и Ефрона, Новый словарь русского языка и многие другие.
UnxUtils - здесь доступны win32-версии многих GNU-утилит.
TextPad - отсюда можно скачать свежую версию этого мощного редактора.