Member 13912275 Ответов: 1

Как я могу перебирать HTML-код страницы, возвращая все подстроки, начинающиеся с подстроки a и заканчивающиеся подстрокой B?


Я лучше знаком с SQL, поэтому решил обратиться за помощью с помощью C#.

Моя цель состоит в том, чтобы вызвать скрипт C# из пакета SSIS SQL Server, который анализирует веб-страницу для загружаемых ссылок, начинающихся и заканчивающихся 2 подстроками, которые, как я знаю, не изменятся.

Веб-страница находится здесь: Загрузка Данных PatentsView[^]

Я хотел бы найти каждый экземпляр в HTML, который начинается с "http://www.patentsview.org/data/" и заканчивается на ".tsv.zip". На данный момент это моя главная задача (следующие задачи будут заключаться в том, чтобы 1) сохранить их как переменные или что-то в этом роде в SSIS, 2) загрузить их, 3) распаковать и 4) загрузить в базу данных SQL Server.). однако на данный момент я в основном сосредоточен на разборе HTML.

Есть ли у кого-нибудь предложения о том, как это сделать? Пожалуйста, имейте в виду, что я никогда раньше не использовал C#, но у меня есть умеренный опыт кодирования на других языках.

Лучший
Нико

Что я уже пробовал:

Я пробовал использовать сторонние компоненты SSIS, но считаю, что использование скриптовых задач-лучший способ.

gggustafson

Я не совсем понимаю, что вы подразумеваете под "сценарием C#". C# - это язык программирования, а не язык сценариев. Может быть, вы имеете в виду JavaScript-скрипт?

#realJSOP

Он говорит о задаче сценария в пакете SSIS.

gggustafson

Называется ли этот тип задачи "сценарием C#"?

#realJSOP

Ну, начиная с SQL Server 2008, Вы можете выбрать между VB.net и C# для скриптовых задач. Он действительно упомянул, что пишет пакет SSIS в своем вопросе. Технически это "задача скрипта", и я не совсем уверен в этом, но я думаю, что код в задаче скрипта интерпретируется на лету, поэтому было бы более точно назвать его "сценарием c#".

Я не специалист по SSIS, но я действительно останавливался в Holiday Inn Express прошлой ночью. :)

gggustafson

Спасибо за понимание.

Dave Kreskowiak

Почему вы очищаете HTML вместо того, чтобы просто использовать интерфейс API?

1 Ответов

Рейтинг:
1

#realJSOP

Выскабливание веб - страницы чревато опасностью, поскольку формат страницы может измениться в любой момент в будущем, тем самым нарушив ваш пакет. Однако имейте в виду, что html на самом деле не что иное, как xml, и разбор его-простое дело. Есть также доступные библиотеки, такие как Html Agility Pack | HAP[^] это может сделать вашу жизнь синтаксического анализа намного проще.

После того как вы очистили имена файлов, загрузите файлы и распакуйте их в задаче сценария, а затем создайте пакет импортера для импорта данных в базу данных.