ScrapySharp 對HtmlAgility的功能進行了擴展, 應(yīng)用類似JQuery一樣的方式通過css selector來選擇html里面的元素。個人認為這樣操作封裝了HtmlAgility使用上的細節(jié),而且顯得更加的面向?qū)ο螅拥闹庇^和簡便。 比如對于這樣的一段html: | <select id='someid'> <option selected value='0'>所有地區(qū)</option> <option value='1' >廣東省</option> <option value='2' >廣西省</option> <option value='3' >北京</option> <option value='4' >上海</option> <option value='5' >福建省</option> <option value='6' >江西省</option> </select> | 使用HtmlAgility來獲取value以及對應(yīng)的文本值的寫法可以是這樣的: | HtmlWeb web = new HtmlWeb(); web.OverrideEncoding = System.Text.Encoding.Default; HtmlDocument doc = web.Load(url); HtmlNodeCollection nc = doc.DocumentNode.SelectNodes('//select[@id=\'someid\']/option'); foreach (HtmlNode n in nc) { Console.WriteLine(n.Attributes['value'].Value); Console.WriteLine(n.NextSibling.InnerText); } | 而使用ScrapySharp則可以是這樣做: | ScrapingBrowser Browser = new ScrapingBrowser(); WebPage PageResult = Browser.NavigateToPage(new Uri(url)); var searchDropdownBox = PageResult.Html.CssSelect('#someid').First(); var options = searchDropdownBox.CssSelect('option'); foreach (var option in options) { string value = option.GetAttributeValue('value'); string text = option.NextSibling.InnerText; } | 喜歡哪種方式那是因人而異了。 不過這里要注意的是, 要獲取option的文本需要用到NextSibling.InnerText。 對于不熟悉的朋友可能要折騰一陣子。
|