RulateBookExtractor

The script adds a button to the site for downloading books to an FB2 file

< Feedback on RulateBookExtractor

Review: Good - script works

На чём споткнулся скрипт.
Брал прямо с главной страницы, скачивая по порядку.
https://tl.rulate.ru/book/92407
Для посторонних, пропустивших обсуждения: вот эта часть - Авторы: нет Не найдена информация об авторах - в остальных случаях скрипт скачивает нормально, это не ошибка в данном и подобных случаях (и на Ридли та же фигня, все знают, почему - и зачем эти скрипты вообще).
Итак, лог:
Название: Marvel: I look at the battle and get attributes / Марвел: Я смотрю на битву и получаю атрибуты
Авторы: нет
Не найдена информация об авторах
Жанры: не реализовано
Теги: 4
Последнее обновление: n/a
Выбрано глав: 15
Загрузка обложки... ok
Размер обложки: 178015 байт
Тип обложки: image/jpeg
Анализ аннотации... ошибка!
Неизвестный HTML блок: DIV
Закрыт

https://tl.rulate.ru/book/90394
Целиком скачалось, но тут автор за каким-то хреном запихнул две картинки в аннотацию - их скрипт не скачать ([ image1 ]
[ image2 ])
Название: Марвел 11: Система суперсолдата / Марвел 11: Система суперсолдата
Авторы: 1
Жанры: не реализовано
Теги: 6
Последнее обновление: n/a
Выбрано глав: 20
Загрузка обложки... ok
Размер обложки: 307657 байт
Тип обложки: image/jpeg
Анализ аннотации... ok
Загрузка изображения... ошибка!
Загрузка изображения... ошибка!

§
Posted: 2023-06-21
Edited: 2023-06-21

В логе ошибок нет, скачано полностью
https://tl.rulate.ru/book/76576
Не знаю, насколько дело в скрипте.
Алридер равняет текст по центру и выделяет его жирным, т.е. считает заголовками. Весь текст, все 114 страниц.
Fiction Book Editor однако же открыл его нормально-штатно.
Чисто для сведения, чтоб скрипт улучшить, а так это полный мусор, начать с того, что дебил "оформляет" прямую речь как принято в английском языке. И даже так неправильно, боже... Расстрелять, конечно. Как и еще ряд таких же точно ненормальных, увидел сейчас, охренел, н-да.

По поводу предыдущей книжки с картинками в аннотации. Походу у них там на Рулейте такое принято, обнаружено еще больше 5 штук таких же. Тут, если этот вопрос дорабатывается, сделать как-нибудь, чтобы эти картинки сохранялись, например, в конец файла. Ну и в любом случае - дорабатываем или нет - не убирать заглушку с того места, где эти картинки на сайте есть и должны быть в файле. Т.е. пускай так и висит ([ image1 ] [ image2 ])

https://tl.rulate.ru/book/78613
азвание: Deal with the Devil / DxD: Сделка с дьяволом
Авторы: 1
Жанры: не реализовано
Теги: 15
Последнее обновление: n/a
Выбрано глав: 1
Загрузка обложки... ok
Размер обложки: 225035 байт
Тип обложки: image/jpeg
Анализ аннотации... ошибка!
Неизвестный HTML блок: TABLE

И, кстати, немаловажный вопрос - а работает ли скрипт с теми книгами, у которых 1 глава? Если нет, то вообще это же не АТ, тут такие книжки разве существуют? Смысл сайта вроде ж в продажах, тут даже если кто захочет всё в одну "главу" слить, но просто не получится? Т.е. если, то можно элементарно подождать, уж 2 главы и дальше скрипт точно скачает.

https://tl.rulate.ru/book/29360
Скачивает отлично, этот и подобные огромные фики.
А вот обложка всего одна. Вообще-то это логично, но Рулейт на своей волне и здесь, а не только в аннотациях - обложек может быть несколько, в этой книжке 3.
Возможно ли как-то всё-таки забирать их в файл? Например, тоже в конец?

§
Posted: 2023-06-21
Edited: 2023-06-21

https://tl.rulate.ru/book/91008
Гм. А вот тут он картинку в аннотацию скачал, однако. Прям в аннотации в Алридере располагается, ага.
Почему ж тогда сбоил на упомянутом примере и пяти еще?

И отсюда скачал - https://tl.rulate.ru/book/89563
А это вообще гифка! Алридер картинку показал не гифкой, конечно, но все же показал и тоже в аннотации.

О, какой неочевидный и редкий глюк поймал!
https://tl.rulate.ru/book/91750
В аннотации картинка де-юре есть, вот только де-факто (либо с хостингом тех.проблема, либо вообще роскомнадзор влез) её нет. Вроде ссылка - https://pbs.twimg.com/media/EY4Oc4QXkAE3Dr2?format=png&name=900x900
На самом Рулейте на её месте тоже пустое место, этакая заглушка.
Скрипт же останавливается и дальше ни в какую.

Название: Killed For 100 Years in Hueco Mundo, Aizen Invited Me To Soul Society! / Блич: 100 лет заключения в Уэко Мундо
Авторы: 1
Жанры: не реализовано
Теги: 2
Последнее обновление: n/a
Выбрано глав: 19
Загрузка обложки... ok
Размер обложки: 305136 байт
Тип обложки: image/jpeg
Анализ аннотации...
Загрузка изображения...

Вот такой попался.
https://tl.rulate.ru/book/91354
Одну, первую картинку, из аннотации он взял, а вторую - нет. Причем там гифка, но не просто - в логе на этапе "ошибка" скрипт задумался секунд на 15, застыл, и когда я уже хотел "прервать", выдал эту "ошибка", но пошёл скачивать дальше! Первый раз за сегодня, до этого если останавливался, то совсем.

Название: Naruto: The Gamer Files / Наруто: Досье геймера
Авторы: нет
Не найдена информация об авторах
Жанры: не реализовано
Теги: 5
Последнее обновление: n/a
Выбрано глав: 9
Загрузка обложки... ok
Размер обложки: 183481 байт
Тип обложки: image/jpeg
Анализ аннотации... ok
Загрузка изображения... ok
Загрузка изображения... ошибка!
---
Получение главы 1/9... ok
Получение главы 2/9... ok
Получение главы 3/9... ok

https://tl.rulate.ru/book/85945
Название: Lord of Humanity: My undead have 100x magnification / Лорд человечества: моя нежить имеет 100-кратное увеличение
Авторы: 1
Жанры: не реализовано
Теги: 10
Последнее обновление: n/a
Выбрано глав: 101
Загрузка обложки... ok
Размер обложки: 255349 байт
Тип обложки: image/jpeg
Анализ аннотации... ошибка!
Неизвестный HTML блок: TABLE

Ладно, хватит на сегодня (или вообще?). У меня от этих уродов шаринган открылся.
"Оформляют" прямую речь, как в английском (и то неправильно), выделяют реплики жирным (вот просто выделяют, нравится видать), безумные курсивы где не надо, капсы, скобки, пустые места...
Содержимое навроде

Хотя «глава клана» дорог в его сердце, он также понимает миссию Нацухико, что он должен возглавить возрождение Учих.
И из-за этого, после передачи этой должности, чувство вины в его сердце сильно уменьшилось.
***
Они некоторое время болтали, а затем расстались.
Саске начал безумно тренироваться.
Нацухико тоже не сидел сложа руки. Он занялся разбором наследия клана Учиха.
«Это действительно похоже на то, как если бы вас погрызла собака!»

Есть и нормальные люди, но подавляющее большинство вообще как с пальмы упало вчера. Даже не слышали, что у русского языка есть какие-то там правила, не то, что учить пытались.
Фак, получил столько стресса... Притом, что на тот сайт хожу раз в полгода, если вообще...
Всем пока (по крайней мере, пока).

Ox90Author
§
Posted: 2023-06-22

Много понаписано, подробно. Что касается картинок в аннотации - скрипт о таком знает и должен грузить. Я посмотрю в чем там дело. В общем, завтра поразбираюсь.

Ox90Author
§
Posted: 2023-06-22

https://tl.rulate.ru/book/92407 (Неизвестный HTML блок: DIV)

Исправил. Это миниатюра (thumbnail) другой книжки внутри аннотации текущей книги. Добавил фильтр в аннотацию и в главы. Походу автор сам добавил, потому что я такого больше не встречал.

https://tl.rulate.ru/book/90394 две картинки в аннотацию - их скрипт не скачать

Скрипт умеет качать картинки из аннотации. Тут дело в другом - сработала защита самого сайта CORS (Cross-Origin Resource Sharing). Причем на FF с greasemonkey картинки грузятся без проблем. Я на такое нарывался в AT. У Readli этого нет. Думал и тут пронесет. Не пронесло, буду фиксить.

https://tl.rulate.ru/book/76576 Алридер равняет текст по центру и выделяет его жирным, т.е. считает заголовками

Мой косяк - скрипт формирует невалидный fb2 файл, от чего ваша читалка, скорее всего начинает глючить. Проблема была в перечеркнутом тексте в аннотации.

Расстрелять, конечно. Как и еще ряд таких же точно ненормальных, увидел сейчас, охренел, н-да.

Тихо, тихо. Дышите глубже! Сначала выпороть, потом уж расстрелять! :)

https://tl.rulate.ru/book/78613 Неизвестный HTML блок: TABLE

В главах это работало, не думал, что в аннотации вылезет. Пофиксил.

И, кстати, немаловажный вопрос - а работает ли скрипт с теми книгами, у которых 1 глава?

Если бы я знал... Это типа как рассказы на АТ? Я такого тут не встречал. По идее, в оригинальном движке (notabenoid.org) главы иначе нежели обычно не отображаются. Но я специально не искал. Если вы о чем-то другом, то лучше с примером.

https://tl.rulate.ru/book/29360 но Рулейт на своей волне и здесь, а не только в аннотациях - обложек может быть несколько, в этой книжке 3

Я про это изначально знал. В стандарте... а ведь в стандарте fb2 разрешено иметь несколько обложек. А я не подумал и в скрипте тупо беру первую обложку. Можно попробовать сунуть все доступные, возможно книжки это даже отобразят. Или вы считаете, что лучше таки в конец книги, типа доп.материалов?

https://tl.rulate.ru/book/91008 Гм. А вот тут он картинку в аннотацию скачал, однако. Прям в аннотации в Алридере располагается, ага. Почему ж тогда сбоил на упомянутом примере и пяти еще?

Потому что внутри глав авторы грузят картинки прямо на сайт (не всегда), а в аннотации... как придется, обычно ссылками на другие хостинги.

https://tl.rulate.ru/book/91750 В аннотации картинка де-юре есть, вот только де-факто (либо с хостингом тех.проблема, либо вообще роскомнадзор влез) её нет

Если я правильно помню, twimg был заблочен. У меня под Tor-ом картинка в аннотации скачалась, без Tor-а - нет.

Скрипт же останавливается и дальше ни в какую.

Порой нужно просто подождать. Сие поведение зависит от типа блокировки картинки, как было оборвано соединение (drop или reject). Скрипт может повисеть пару минут, словить таймаут от браузера и продолжить работать дальше. После ошибок с загрузкой картинок скрипт продолжает работать, так сделано специально. На месте незагруженных картинок будут текстовые заглушки.

https://tl.rulate.ru/book/91354 Одну, первую картинку, из аннотации он взял, а вторую - нет. Причем там гифка, но не просто - в логе на этапе "ошибка" скрипт задумался секунд на 15, застыл, и когда я уже хотел "прервать", выдал эту "ошибка", но пошёл скачивать дальше!

Таймауты, да. Я могу попробовать их сократить, но не уверен, что нужно, ведь еще у кого-нибудь может быть занятый канал. А вот гифку нужно будет потестить, наверняка там имя файла формируется без расширения, если в исходник fb2 глянуть. Некрасиво получается. Поправил.

https://tl.rulate.ru/book/85945 Неизвестный HTML блок: TABLE

Поправил, смотрите выше.

выделяют реплики жирным (вот просто выделяют, нравится видать)

А еще любят разными цветами раскрашивать, как минимум а аннотации. Кстати, у меня скрипт цвета игнорирует.

безумные курсивы где не надо, капсы, скобки, пустые места...

Угу. Переносов куча. А еще в конце каждой главы несколько переносов строк и ссылка на главу. Но это, похожу, уже сам сайт добавляет.


В общем пока все. Что еще не доделал сделаю позже. Сейчас выложу то, что уже пофиксил. Останется только решить с мультиобложками и ошибки загрузки по причине CORS.

Ox90, как всегда, мощно! Спасибо за оперативность и, ну вы и так всё знаете.

Сначала выпороть

Школа их пороть должна была. Ну там все эти домашние задания, оценки, диктанты/изложения. Экзамены. Для подростка порка по сути и есть, учитывая, что хочется другого и прямо сейчас, но. Н-да.

Это типа как рассказы на АТ?

Они самые. Я тоже не встречал; собственно, вроде же Рулейт такому прямо противоречит по сущности своей? Я думаю тогда, просто не обращайте внимания на такие теоретические одноглавки.

Можно попробовать сунуть все доступные, возможно книжки это даже отобразят. Или вы считаете, что лучше таки в конец книги, типа доп.материалов?

Тут, конечно, двояко. Раньше сказал бы, что Доп.материалы в конце - то, что доктор прописал. А теперь, когда я осознал, что они лепят картинки в аннотации и это нормально, то даже и не знаю. Можно их тоже в начало, впереди всего текста? Ну и да, получается тоже в аннотацию?..

В стандарте... а ведь в стандарте fb2 разрешено иметь несколько обложек.

Так то в стандарте. Точно лучше и дешевле не извращаться, мало ли у кого какие читалки и как глючат. Одна обложка, затем уже картинки. Аннотация, если на Рулейте так принято. А может, этакий Пролог сразу после аннотации и ДО всего текста?
В общем и целом, главное - скачать все картинки и поместить их в файл. А куда конкретно - как вам удобнее.

Если я правильно помню, twimg был заблочен.

Ага, значит эти потоптались. Думаю, редкий случай, а вообще по ситуации - я уже понял из вашего ответа ниже, что можно просто подождать и тогда скрипт пойдёт скачивать дальше, а не остановится намертво.

Таймауты, да. Я могу попробовать их сократить, но не уверен, что нужно

Я тоже не уверен. Пусть лучше будет как сейчас. Тут, наверное, что точно нужно - как-то наглядно сделать поведение скрипта. Если он точно стопорится - то это однозначный стоп и его видно. А если задумался, но скорее всего пойдёт дальше - как-то показать? Но как-то не представляю, как и что тут можно сделать...

А еще любят разными цветами раскрашивать

Ради бога, не копайте в ту сторону. Жирный, курсив и т.п. - всё, что нужно. Переусложнять скрипт для "низачем" - ну такое себе.

и ссылка на главу. Но это, похожу, уже сам сайт добавляет.

Вот, кстати, да. Можно её как-то убирать? Или в принципе не надо? Но это ж по идее строго самая последняя строка в каждой главе, и даже если автор что-нибудь значимое сам в конце разместит, да ту же ссылку какую, сайт автоматом сделает её предпоследней, и на последней разместит вот это вот свой адрес. Раздражает, вообще говоря...

Ну, вроде всё. Я походу отдохну от этого рулейта месяцок-другой, а то набрался впечатлений вчера по самые те самые. Ну их.
С уважением,
я (а кто ещё-то?).

Ox90Author
§
Posted: 2023-06-23

Мультиобложку - реализовал. Картинки из вашей второй ссылки теперь грузятся, я переписал загрузчик. Насчет ссылки - по мне так нужно вырезать. Для себя я объясняю так: скрипт предназначен для выгрузки авторского контента, а это точно не он. Пока не реализовал. Забыл, если честно.

p.s. Про цвета не пугайтесь - и в мыслях не было это реализовывать. Просто упомянул как пример зашквара.

Post reply

Sign in to post a reply.