OCR text from images using Tesseract.js
Основная информация:
Название: Image OCR Helper
Версия: 1.0.1
Описание: Скрипт позволяет извлекать текст с любых изображений на веб-странице с помощью OCR (оптического распознавания текста) через библиотеку Tesseract.js.
Совместимость: Работает на всех сайтах (*://*/*).
Запуск: После полной загрузки страницы (document-end).
Как работает:
Загрузка Tesseract.js
Скрипт проверяет, есть ли библиотека Tesseract в window. Если нет, он автоматически загружает её с CDN:
https://cdn.jsdelivr.net/npm/tesseract.js@5/dist/tesseract.min.js
Отслеживание клика на изображении
Скрипт добавляет обработчик события click на все элементы страницы. Он проверяет, что цель клика — это изображение (HTMLImageElement).
Запуск OCR
Если клик действительно был по изображению:
В консоли выводится сообщение "OCR started...".
Скрипт запускает распознавание текста через Tesseract.recognize, используя английский язык ('eng').
Прогресс распознавания выводится в консоль (logger: m => console.log(m)).
Вывод результата
Когда распознавание завершено:
В консоли появляется результат: OCR RESULT: ...
Появляется всплывающее окно с текстом, который был распознан из изображения (alert('OCR result:\n\n' + result.data.text)).
Ключевые особенности:
Работает на любом сайте без необходимости менять код.
Не требует серверной части — всё происходит в браузере.
Можно быстро получить текст с изображений простым кликом.
Использует современную библиотеку Tesseract.js для точного OCR.