Извлечение HTML-данных на языке C++
Всем Привет,
У меня есть проект для чтения электронной почты (формат HTML) и извлечения из нее определенной информации, такой как номера ссылок, суммы и т. д..
Как только я получу электронное письмо, я сохраню его в буфер символов.
Письмо содержит все HTML-теги и т. д. см. ниже.
Я хотел бы знать, как я могу извлечь HTML-данные, а не HTML-теги.
НАПР.:
в <html-код&ГТ;Привет Мир&ЛТ;/HTML и ГТ;
Я хочу извлечь часть "Привет, Мир".
Я подумал о сравнении каждого символа, и если символ находится в угловых скобках "< " или " >", я отброшу этот символ, таким образом, у меня будут все остальные данные.
Является ли это наиболее эффективным методом, так как мы ожидаем больших объемов электронных писем.
Заранее спасибо.
_____
<o:shapedefaults v:ext="edit" spidmax="1026" /> </xml><![endif]--><!--[if gte mso 9]><xml> <o:shapelayout v:ext="edit"> <o:idmap v:ext="edit" data="1" /> </o:shapelayout></xml><![endif]--></head> <body lang=EN-US link=blue vlink=purple> <div class=WordSection1><p class=MsoNormal> <o:p> </o:p></p> <div align=center> <table class=MsoNormalTable border=0 cellspacing=0 cellpadding=0 width=720 style='width:540.0pt'> <tr style='height:129.75pt'> <td style='padding:0cm 0cm 0cm 0cm;height:129.75pt'> <p class=MsoNormal> <img width=720 height=173 id="_x0000_i1026" src="cid:image001.jpg@01CB8683.F336E550" alt="Standard Bank"><o:p></o:p></p></td> </tr><tr><td width=718 style='width:538.5pt;background:#2E77BA;padding:0cm .75pt 0cm .75pt'> <div align=center><table class=MsoNormalTable border=0 cellspacing=0 cellpadding=0 width=705 style='width:528.75pt'><tr> <td style='background:white;padding:7.5pt 7.5pt 7.5pt 7.5pt'><p><b> <span style='font-size:13.5pt;font-family:"Arial","sans-serif";color:navy'><br></span></b> <strong> <span style='font-size:18.0pt;font-family:"Arial","sans-serif";color:navy'>Business Online deposit received</span> </strong><o:p></o:p></p><p class=MsoNormal> <span style='font-size:10.0pt;font-family:"Arial","sans-serif";color:black'>Dear </span> <span style='font-size:10.0pt;font-family:"Arial","sans-serif";color:#4F81BD'><<preferredName>></span> <span style='font-size:10.0pt;font-family:"Arial","sans-serif";color:black'><br> <br>A deposit has been received for your Standard Bank account number </span> <span style='font-size:10.0pt;font-family:"Arial","sans-serif";color:#4F81BD'><<ACC NO>></span> <span style='font-size:10.0pt;font-family:"Arial","sans-serif";color:black'>.<o:p></o:p></span></p> <p class=MsoNormal><span style='font-size:10.0pt;font-family:"Arial","sans-serif";color:black'> <o:p> </o:p></span></p><p class=MsoNormal> <span style='font-size:10.0pt;font-family:"Arial","sans-serif";color:black'>The details are as follows:<o:p></o:p></span></p> <p class=MsoNormal><span style='font-size:10.0pt;font-family:"Arial","sans-serif";color:black'><o:p> </o:p></span></p> <table class=MsoNormalTable border=0 cellspacing=1 cellpadding=0 width="95%" style='width:95.42%;background:#3D5378'> <tr><td width="10%" valign=top style='width:10.46%;background:white;padding:1.5pt 1.5pt 1.5pt 1.5pt'> <p class=MsoNormal><b><span style='font-size:10.0pt;font-family:"Arial","sans-serif";color:black'>Currency<o:p></o:p></span> </b></p></td><td width="21%" valign=top style='width:21.84%;background:white;padding:1.5pt 1.5pt 1.5pt 1.5pt'> <p class=MsoNormal><b><span style='font-size:10.0pt;font-family:"Arial","sans-serif";color:black'>Amount<o:p></o:p> </span></b></p></td><td style='background:white;padding:1.5pt 1.5pt 1.5pt 1.5pt'><p class=MsoNormal><b> <span style='font-size:10.0pt;font-family:"Arial","sans-serif";color:black'>Value Date</span></b><o:p></o:p></p> </td><td width="26%" valign=top style='width:26.52%;background:white;padding:1.5pt 1.5pt 1.5pt 1.5pt'><p class=MsoNormal> <b><span style='font-size:10.0pt;font-family:"Arial","sans-serif";color:black'>Reference<o:p></o:p></span></b></p></td> <td width="24%" style='width:24.56%;background:white;padding:1.5pt 1.5pt 1.5pt 1.5pt'><p class=MsoNormal><b> <span style='font-size:10.0pt;font-family:"Arial","sans-serif";color:black'>Message ID</span></b><o:p></o:p></p></td> </tr><tr style='height:12.1pt'> <td width="10%" valign=top style='width:10.46%;background:white;padding:1.5pt 1.5pt 1.5pt 1.5pt;height:12.1pt'> <p class=MsoNormal align=right style='text-align:right'><span style='font-family:"Arial","sans-serif"'>R<o:p> </o:p></span></p></td> <td width="21%" valign=top style='width:21.84%;background:white;padding:1.5pt 1.5pt 1.5pt 1.5pt;height:12.1pt'> <p class=MsoNormal><span style='font-family:"Arial","sans-serif"'>2860.00<o:p></o:p></span></p></td> <td style='background:white;padding:1.5pt 1.5pt 1.5pt 1.5pt;height:12.1pt'><p class=MsoNormal>
[edit]попытался исправить форматирование, но что-то кажется неправильным[/edit]
[edit2] исправлено форматирование [/edit2]