Как я могу перебирать HTML-код страницы, возвращая все подстроки, начинающиеся с подстроки a и заканчивающиеся подстрокой B?
Я лучше знаком с SQL, поэтому решил обратиться за помощью с помощью C#.
Моя цель состоит в том, чтобы вызвать скрипт C# из пакета SSIS SQL Server, который анализирует веб-страницу для загружаемых ссылок, начинающихся и заканчивающихся 2 подстроками, которые, как я знаю, не изменятся.
Веб-страница находится здесь: Загрузка Данных PatentsView[^]
Я хотел бы найти каждый экземпляр в HTML, который начинается с "http://www.patentsview.org/data/" и заканчивается на ".tsv.zip". На данный момент это моя главная задача (следующие задачи будут заключаться в том, чтобы 1) сохранить их как переменные или что-то в этом роде в SSIS, 2) загрузить их, 3) распаковать и 4) загрузить в базу данных SQL Server.). однако на данный момент я в основном сосредоточен на разборе HTML.
Есть ли у кого-нибудь предложения о том, как это сделать? Пожалуйста, имейте в виду, что я никогда раньше не использовал C#, но у меня есть умеренный опыт кодирования на других языках.
Лучший
Нико
Что я уже пробовал:
Я пробовал использовать сторонние компоненты SSIS, но считаю, что использование скриптовых задач-лучший способ.
gggustafson
Я не совсем понимаю, что вы подразумеваете под "сценарием C#". C# - это язык программирования, а не язык сценариев. Может быть, вы имеете в виду JavaScript-скрипт?
#realJSOP
Он говорит о задаче сценария в пакете SSIS.
gggustafson
Называется ли этот тип задачи "сценарием C#"?
#realJSOP
Ну, начиная с SQL Server 2008, Вы можете выбрать между VB.net и C# для скриптовых задач. Он действительно упомянул, что пишет пакет SSIS в своем вопросе. Технически это "задача скрипта", и я не совсем уверен в этом, но я думаю, что код в задаче скрипта интерпретируется на лету, поэтому было бы более точно назвать его "сценарием c#".
Я не специалист по SSIS, но я действительно останавливался в Holiday Inn Express прошлой ночью. :)
gggustafson
Спасибо за понимание.
Dave Kreskowiak
Почему вы очищаете HTML вместо того, чтобы просто использовать интерфейс API?