OCR 2017: tesseract-4.0.0-alpha.20170703/007-9888/0009.hocr OCR 2018: tesseract-4.0.0-20181201/007-9888/0009.hocr