Brian C Hart Ответов: 1

Как извлечь дату, скажем, "16 января 2016 года" из большого куска текста с помощью регулярного выражения?


Привет,

Я просматриваю некоторые счета со своего сканера с помощью хорошо известной библиотеки распознавания. Он очень хорош и возвращает весь найденный текст в виде большой строки, заполненной распознаваемым текстом.

В верхней части купюры есть строка, которая гласит:

January 16, 2016


Я пробовал разбить выходные данные на строки, но они находятся в разных строках для каждого счета, всегда в одном и том же формате "длинный месяц", "номер дня", "четырехзначный год".

Что такое регулярное выражение, которое я могу использовать, чтобы жевать текст и выбирать дату в этом формате?

Что я уже пробовал:

Я искал и искал в google, но, вероятно, не использую правильные поисковые запросы. Любые советы помогут!

1 Ответов

Рейтинг:
0

Peter_in_2780

Первым делом возьмите экземпляр "экспрессо".
Ваше регулярное выражение, вероятно, закончится чем-то вроде
/January|February|....|December\s*\d{1,2}\s*,\s*\d{4}/
Я бросил в \s*таким образом, он будет терпим к переменному количеству пробелов (из моего опыта OCR).
Не стесняйтесь жевать это, как вам нравится.

правка: ой! удалены ложные []

edit2: исправлено написание Eикспрессо