OCR 2017: tesseract-4.0.0-alpha.20170703/006-7925/0338.hocr OCR 2018: tesseract-4.0.0-20181201/006-7925/0338.hocr