<?xml version="1.0"?>
<oembed><version>1.0</version><provider_name>Fortune Insight</provider_name><provider_url>https://prime.fortuneinsight.com/web</provider_url><author_name>&#x9322;&#x741B;</author_name><author_url>https://prime.fortuneinsight.com/web/posts/author/chinshun</author_url><title>&#x300A;&#x5DE5;&#x5177;&#x904B;&#x7528;&#x300B;&#x5982;&#x4F55;&#x5FEB;&#x901F;&#x5B78;&#x7FD2;Web Scraping&#xFF1F; - Fortune Insight</title><type>rich</type><width>600</width><height>338</height><html>&lt;blockquote class="wp-embedded-content"&gt;&lt;a href="https://prime.fortuneinsight.com/web/posts/559304"&gt;&#x300A;&#x5DE5;&#x5177;&#x904B;&#x7528;&#x300B;&#x5982;&#x4F55;&#x5FEB;&#x901F;&#x5B78;&#x7FD2;Web Scraping&#xFF1F;&lt;/a&gt;&lt;/blockquote&gt;
&lt;script type='text/javascript'&gt;
&lt;!--//--&gt;&lt;![CDATA[//&gt;&lt;!--
		!function(c,d){"use strict";var e=!1,n=!1;if(d.querySelector)if(c.addEventListener)e=!0;if(c.wp=c.wp||{},!c.wp.receiveEmbedMessage)if(c.wp.receiveEmbedMessage=function(e){var t=e.data;if(t)if(t.secret||t.message||t.value)if(!/[^a-zA-Z0-9]/.test(t.secret)){for(var r,a,i,s=d.querySelectorAll('iframe[data-secret="'+t.secret+'"]'),n=d.querySelectorAll('blockquote[data-secret="'+t.secret+'"]'),o=0;o&lt;n.length;o++)n[o].style.display="none";for(o=0;o&lt;s.length;o++)if(r=s[o],e.source===r.contentWindow){if(r.removeAttribute("style"),"height"===t.message){if(1e3&lt;(i=parseInt(t.value,10)))i=1e3;else if(~~i&lt;200)i=200;r.height=i}if("link"===t.message)if(a=d.createElement("a"),i=d.createElement("a"),a.href=r.getAttribute("src"),i.href=t.value,i.host===a.host)if(d.activeElement===r)c.top.location.href=t.value}}},e)c.addEventListener("message",c.wp.receiveEmbedMessage,!1),d.addEventListener("DOMContentLoaded",t,!1),c.addEventListener("load",t,!1);function t(){if(!n){n=!0;for(var e,t,r=-1!==navigator.appVersion.indexOf("MSIE 10"),a=!!navigator.userAgent.match(/Trident.*rv:11\./),i=d.querySelectorAll("iframe.wp-embedded-content"),s=0;s&lt;i.length;s++){if(!(e=i[s]).getAttribute("data-secret"))t=Math.random().toString(36).substr(2,10),e.src+="#?secret="+t,e.setAttribute("data-secret",t);if(r||a)(t=e.cloneNode(!0)).removeAttribute("security"),e.parentNode.replaceChild(t,e)}}}}(window,document);
//--&gt;&lt;!]]&gt;
&lt;/script&gt;&lt;iframe sandbox="allow-scripts" security="restricted" src="https://prime.fortuneinsight.com/web/posts/559304/embed" width="600" height="338" title="&#x201C;&#x300A;&#x5DE5;&#x5177;&#x904B;&#x7528;&#x300B;&#x5982;&#x4F55;&#x5FEB;&#x901F;&#x5B78;&#x7FD2;Web Scraping&#xFF1F;&#x201D; &#x2014; Fortune Insight" frameborder="0" marginwidth="0" marginheight="0" scrolling="no" class="wp-embedded-content"&gt;&lt;/iframe&gt;</html><thumbnail_url>https://prime.fortuneinsight.com/web/wp-content/uploads/2021/07/selenium_logo.jpg</thumbnail_url><thumbnail_width>284</thumbnail_width><thumbnail_height>305</thumbnail_height><description>&#x6709;&#x7DB2;&#x53CB;&#x554F;&#x61C9;&#x8A72;&#x5982;&#x4F55;&#x5B78;&#x7FD2;&#x7DB2;&#x9801;&#x64AE;&#x53D6;&#xA0;&#xFF08;web scraping&#xFF09;&#xFF0C;&#x4EE5;&#x53CA;&#x61C9;&#x5426;&#x5C07;&#x9019;&#x985E;&#x5DE5;&#x4F5C;outsource&#x51FA;&#x53BB;&#x627E;&#x4EBA;&#x505A;&#x3002;&#x7531;&#x65BC;&#x9019;&#x500B;&#x984C;&#x76EE;&#x5F88;&#x95DC;&#x4E4E;&#x91CF;&#x5316;&#x5206;&#x6790;&#x7684;&#x6578;&#x64DA;&#x4F86;&#x6E90;&#xFF0C;&#x60F3;&#x505A;&#x4E00;&#x500B;&#x8F03;&#x8A73;&#x7D30;&#x7684;&#x89E3;&#x7B54;&#x3002; &#x5148;&#x5B9A;&#x7FA9;web scraping&#x3002;&#x9019;&#x500B;&#x5B57;&#x7684;&#x610F;&#x601D;&#x662F;&#x5728;&#x4E0D;&#x540C;&#x7684;&#x7DB2;&#x9801;&#x4E0A;&#x6536;&#x96C6;&#x8CC7;&#x6599;&#xFF0C;&#x4E26;&#x4EE5;&#x7A0B;&#x5F0F;&#x4EE3;&#x66FF;&#x4EBA;&#x624B;&#x9032;&#x884C;&#x64CD;&#x4F5C;&#x3002;&#x9032;&#x884C;web scraping&#x7684;&#x7A0B;&#x5F0F;&#xFF0C;&#x7A31;&#x70BA;web scraper&#xFF0C;&#x53EF;&#x4EE5;&#x64AE;&#x53D6;&#x4F60;&#x8A8D;&#x70BA;&#x6709;&#x7528;&#x7684;&#x6578;&#x64DA;&#xFF0C;&#x4F8B;&#x5982;&#x6E2F;&#x4EA4;&#x6240;&#x7DB2;&#x9801;&#x7684;&#x671F;&#x8CA8;&#x3001;&#x671F;&#x6B0A;&#x6578;&#x64DA;&#xFF0C;&#x6216;&#x4E0D;&#x540C;&#x52A0;&#x5BC6;&#x8CA8;&#x5E63;&#x4EA4;&#x6613;&#x6240;&#x5C55;&#x793A;&#x7684;non price data&#x3002; &#x5982;&#x679C;&#x81EA;&#x5DF1;&#x6C92;&#x6709;&#x7DE8;&#x7A0B;&#x80CC;&#x666F;&#xFF0C;&#x627E;&#x66FF;&#x5DE5;&#x7DE8;&#x5BEB;web scraper&#x662F;&#x5426;&#x53EF;&#x53D6;&#xFF1F;&#x5176;&#x5BE6;&#x8996;&#x4E4E;&#x66FF;&#x5DE5;&#x7684;&#x8CEA;&#x7D20;&#x3002;&#x7531;&#x65BC;&#x7DE8;&#x5BEB;web scraper&#x4E00;&#x822C;&#x90FD;&#x5E0C;&#x671B;&#x62FF;&#x53D6;&#x6BD4;&#x8F03;customised&#x7684;&#x6578;&#x64DA;&#xFF0C;&#x5C31;&#x7B97;&#x80FD;&#x5728;&#x52DE;&#x5DE5;&#x5E02;&#x5834;&#x627E;&#x5230;&#x61C2;&#x5F97;&#x7DE8;&#x5BEB;web scraper&#x7684;programmer&#xFF0C;&#x4E5F;&#x672A;&#x5FC5;&#x53EF;&#x4EE5;100%&#x6EFF;&#x8DB3;&#x81EA;&#x5DF1;&#x7684;&#x8981;&#x6C42;&#x3002; &#x66F4;&#x91CD;&#x8981;&#x7684;&#x662F;&#xFF0C;&#x5982;&#x679C;&#x6578;&#x64DA;&#x4F86;&#x6E90;&#x7684;&#x7DB2;&#x9801;&#x6709;&#x683C;&#x5F0F;&#x4E0A;&#x7684;&#x8F49;&#x8B8A;&#xFF0C;&#x4EE4;&#x539F;&#x672C;&#x7684;web scraper&#x4E0D;&#x80FD;&#x904B;&#x4F5C;&#xFF0C;&#x81EA;&#x5DF1;&#x61C2;&#x5F97;web scraping&#x6280;&#x5DE7;&#x7684;&#x8A71;&#xFF0C;&#x5C31;&#x53EF;&#x4EE5;&#x66F4;&#x5FEB;&#x9032;&#x884C;&#x76F8;&#x61C9;&#x8ABF;&#x7BC0;&#xFF0C;&#x4E0D;&#x6703;&#x932F;&#x5931;&#x4EFB;&#x4F55;&#x6642;&#x9593;&#x7684;&#x6578;&#x64DA;&#x9EDE;&#x3002; &#x90A3;&#x9EBC;&#xFF0C;web scraping&#x96E3;&#x5B78;&#x55CE;&#xFF1F;&#x61C9;&#x8A72;&#x5982;&#x4F55;&#x5B78;&#x7FD2;web scraping&#xFF1F;&#x500B;&#x4EBA;&#x7D93;&#x9A57;&#x800C;&#x8A00;&#xFF0C;&#x5047;&#x5982;&#x6C92;&#x6709;&#x4EBA;guide&#xFF0C;&#x81EA;&#x5B78;&#x7684;&#x78BA;&#x6703;&#x6BD4;&#x8F03;&#x6162;&#x3002;&#x4E0D;&#x904E;&#xFF0C;&#x5982;&#x679C;&#x6709;&#x4E00;&#x4E9B;&#x57FA;&#x672C;&#x65B9;&#x5411;&#xFF0C;&#x6216;&#x6709;&#x5C0D;web scraping&#x6846;&#x67B6;&#x7684;&#x8A8D;&#x8B58;&#xFF0C;&#x81EA;&#x5B78;&#x5176;&#x5BE6;&#x4E5F;&#x53EF;&#x4EE5;&#x5F88;&#x5FEB;&#x3002; &#x7B2C;&#x4E00;&#x500B;&#x8981;&#x7406;&#x89E3;&#x7684;&#x6982;&#x5FF5;&#xFF0C;&#x662F;web scraping&#x672C;&#x8CEA;&#x4E0A;&#x5176;&#x5BE6;&#x8981;&#x5206;&#x6210;&#x5169;&#x6B65;&#xFF1A;scraping&#x53CA;&#x5C0D;&#x7DB2;&#x9801;&#x9032;&#x884C;&#x89E3;&#x6790;&#xFF08;parsing&#xFF09;&#x3002;&#x56B4;&#x683C;&#x4F86;&#x8AAA;&#xFF0C;scraping&#x6307;&#x4E0B;&#x8F09;&#x7DB2;&#x9801;&#x5167;&#x5BB9;&#xFF0C;parsing&#x5247;&#x6307;&#x5F9E;&#x5DF2;&#x4E0B;&#x8F09;&#x7684;&#x7DB2;&#x9801;&#x5167;&#x5BB9;&#x4E2D;&#x62BD;&#x53D6;&#x6709;&#x7528;&#x6578;&#x64DA;&#x3002;&#x4EE5;&#x4E0A;&#x63D0;&#x53CA;&#x7684;&#x7DB2;&#x9801;&#x5167;&#x5BB9;&#xFF0C;&#x4E00;&#x822C;&#x662F;&#x6307;html&#x6A94;&#x6848;&#xFF0C;&#x4EA6;&#x5373;&#x627F;&#x8F09;&#x7740;&#x6574;&#x500B;&#x7DB2;&#x9801;&#x7684;&#x7D50;&#x69CB;&#x53CA;&#x6578;&#x64DA;&#x7684;&#x6A94;&#x6848;&#x3002; &#x6240;&#x4EE5;&#xFF0C;&#x8981;&#x505A;scraping&#xFF08;&#x4E0B;&#x8F09;&#xFF09;&#x5176;&#x5BE6;&#x4E0D;&#x96E3;&#xFF0C;&#x66F4;&#x8003;&#x6280;&#x5DE7;&#x7684;&#x53CD;&#x800C;&#x662F;parsing&#x3002;&#x9019;&#x88CF;&#x5C31;&#x8981;&#x4ECB;&#x7D39;&#x7B2C;&#x4E8C;&#x500B;&#x6982;&#x5FF5;&#xFF1A;&#x9078;&#x64C7;&#x5668;&#xFF08;selector&#xFF09;&#x3002;&#x5F9E;&#x4E00;&#x500B;&#x7DB2;&#x9801;&#x6A94;&#x6848;&#x4E2D;&#x62BD;&#x53D6;&#x6709;&#x7528;&#x7684;&#x8CC7;&#x6599;&#xFF0C;&#x5C31;&#x5FC5;&#x8981;&#x77E5;&#x9053;&#x8CC7;&#x6599;&#x7684;&#x4F4D;&#x7F6E;&#xFF0C;selector&#x5C31;&#x662F;&#x8868;&#x9054;&#x9019;&#x7A2E;&#x4F4D;&#x7F6E;&#x7684;&#x65B9;&#x5F0F;&#x3002;&#x884C;&#x5167;&#x6709;&#x5169;&#x5927;selector&#x53EF;&#x4F9B;&#x9078;&#x64C7;&#xFF0C;&#x5206;&#x5225;&#x70BA;xpath&#x53CA;CSS Selector&#x3002;&#x500B;&#x4EBA;&#x8A8D;&#x70BA;&#x5B78;&#x61C2;xpath&#x5DF2;&#x7D93;&#x7DBD;&#x7DBD;&#x6709;&#x9918;&#x3002;&#x800C;&#x4E14;&#xFF0C;xpath&#x7684;&#x8A9E;&#x6CD5;&#x53CA;&#x908F;&#x8F2F;&#x90FD;&#x5F88;&#x50CF;Windows&#x7684;&#x6A94;&#x6848;&#x8DEF;&#x5F91;&#xFF08;file path&#xFF09;&#xFF0C;&#x521D;&#x5B78;&#x8005;&#x4E5F;&#x6703;&#x5F88;&#x6613;&#x4E0A;&#x624B;&#x3002; &#x7136;&#x5F8C;&#xFF0C;&#x5C31;&#x8981;&#x7406;&#x89E3;&#x5C0D;&#x7DB2;&#x9801;&#x9032;&#x884C;scraping&#xFF08;&#x4E0B;&#x8F09;&#xFF09;&#x7684;&#x6846;&#x67B6;&#x7684;&#x5206;&#x5225;&#x3002;&#x6BD4;&#x8F03;&#x5E38;&#x7528;&#x7684;&#x6709;&#x5169;&#x7A2E;&#x6846;&#x67B6;&#xFF0C;&#x5206;&#x5225;&#x61C9;&#x4ED8;&#x4E0D;&#x540C;&#x985E;&#x578B;&#x7684;&#x7DB2;&#x9801;&#x3002;&#x5982;&#x679C;&#x7DB2;&#x9801;&#x5167;&#x5BB9;&#x6BD4;&#x8F03;&#x7C21;&#x55AE;&#xFF0C;&#x6C92;&#x6709;&#x5927;&#x91CF;&#x7684;JavaScript&#x4EE4;&#x7DB2;&#x9801;&#x5167;&#x5BB9;&#x4E0D;&#x65B7;&#x66F4;&#x65B0;&#xFF08;&#x4F8B;&#x5982;&#x6E2F;&#x4EA4;&#x6240;&#x7684;&#x90E8;&#x5206;&#x7DB2;&#x9801;&#xFF09;&#xFF0C;&#x4E00;&#x822C;&#x53EF;&#x4EE5;&#x76F4;&#x63A5;&#x4F7F;&#x7528;get request&#x4E0B;&#x8F09;&#x6574;&#x500B;&#x7DB2;&#x9801;&#x7684;&#x5167;&#x5BB9;&#xFF0C;&#x5728;python&#x900F;&#x904E;requests package&#x5C31;&#x53EF;&#x4EE5;&#x76F4;&#x63A5;&#x57F7;&#x884C;&#x3002; &#x4F46;&#x662F;&#xFF0C;&#x5982;&#x679C;&#x7DB2;&#x9801;&#x6709;&#x5927;&#x91CF;&#x7684;&#x5167;&#x5BB9;&#x66F4;&#x65B0;&#xFF08;&#x4F8B;&#x5982;&#x67D0;&#x4E9B;&#x52A0;&#x5BC6;&#x8CA8;&#x5E63;&#x4EA4;&#x6613;&#x6240;&#x7684;&#x7DB2;&#x9801;&#xFF09;&#xFF0C;&#x4F7F;&#x7528;get request&#x5C31;&#x4E0D;&#x80FD;&#x5B8C;&#x6574;&#x5730;&#x5C07;&#x6240;&#x6709;&#x6578;&#x64DA;&#x4E0B;&#x8F09;&#xFF0C;&#x56E0;&#x6B64;&#x5C31;&#x8981;&#x4F7F;&#x7528;&#x53E6;&#x5916;&#x4E00;&#x500B;scraping&#x6846;&#x67B6;&#xFF1A;&#x9023;&#x7D50;&#x700F;&#x89BD;&#x5668;&#xFF08;connected browser&#xFF09;&#x3002;&#x9019;&#x500B;&#x6846;&#x67B6;&#x7684;&#x6982;&#x5FF5;&#x5176;&#x5BE6;&#x76F8;&#x7576;&#x7C21;&#x55AE;&#xFF0C;&#x53EA;&#x662F;&#x4EE5;&#x7A0B;&#x5F0F;&#x4EE3;&#x66FF;&#x4EBA;&#x624B;&#x4E0D;&#x65B7;&#x700F;&#x89BD;&#x7DB2;&#x9801;&#xFF0C;&#x4F8B;&#x5982;&#x586B;&#x5BEB;&#x767B;&#x5165;&#x8CC7;&#x6599;&#x3001;&#x63C0;&#x9078;&#x8CC7;&#x6599;&#x7BE9;&#x9078;&#x5668;&#x3001;&#x6309;&#x5230;&#x4E0B;&#x4E00;&#x9801;&#x7B49;&#x7B49;&#x3002;&#x9019;&#x6A23;&#x5C31;&#x53EF;&#x4EE5;&#x5C07;&#x81EA;&#x5DF1;&#x60F3;&#x8981;&#x7684;&#x6578;&#x64DA;&#x5168;&#x90E8;&#x986F;&#x793A;&#x51FA;&#x4F86;&#xFF0C;&#x7136;&#x5F8C;&#x9032;&#x884C;&#x4E0B;&#x8F09;&#x3002;&#x5728;python&#x4E2D;&#xFF0C;Selenium&#x5C31;&#x662F;&#x57F7;&#x884C;&#x9019;&#x500B;&#x6846;&#x67B6;&#x7684;&#x6700;&#x4E3B;&#x6D41;package&#x3002; &#x5207;&#x8A18;&#xFF0C;&#x4E0D;&#x8AD6;&#x4F7F;&#x7528;&#x54EA;&#x4E00;&#x7A2E;scraping&#x65B9;&#x6CD5;&#xFF0C;&#x4E0B;&#x8F09;&#x7684;&#x983B;&#x7387;&#x4E5F;&#x4E0D;&#x80FD;&#x592A;&#x9AD8;&#xFF0C;&#x4E00;&#x822C;&#x800C;&#x8A00;&#x8981;&#x76F8;&#x9694;10&#x79D2;&#x6216;&#x4EE5;&#x4E0A;&#x624D;&#x53EF;&#x4EE5;&#x4E0B;&#x8F09;&#x53E6;&#x4E00;&#x500B;&#x7DB2;&#x9801;&#xFF0C;&#x5426;&#x5247;&#x4F60;&#x7684;IP address&#x6703;&#x88AB;&#x8996;&#x70BA;&#x5C0D;&#x7DB2;&#x9801;&#x9032;&#x884C;&#x653B;&#x64CA;&#xFF0C;&#x5F88;&#x5927;&#x6A5F;&#x6703;&#x6703;&#x88AB;&#x7981;&#x6B62;&#x700F;&#x89BD;&#x7DB2;&#x9801;&#x3002; &#x6700;&#x5F8C;&#xFF0C;&#x5C31;&#x662F;&#x5982;&#x4F55;&#x5132;&#x5B58;&#x6578;&#x64DA;&#x7684;&#x554F;&#x984C;&#x3002;&#x6578;&#x64DA;&#x91CF;&#x5C11;&#x7684;&#x8A71;&#xFF0C;&#x53EF;&#x4EE5;&#x5C07;&#x4E0B;&#x8F09;&#x7684;&#x7DB2;&#x9801;&#x5167;&#x5BB9;&#x653E;&#x5230;&#x96FB;&#x8166;&#x7684;&#x786C;&#x76E4;&#xFF08;disk&#xFF09;&#x4E2D;&#xFF0C;&#x4EA6;&#x5373;&#x5C07;&#x6578;&#x64DA;&#x4EE5;&#x6A94;&#x6848;&#x7684;&#x5F62;&#x5F0F;&#x653E;&#x5230;&#x96FB;&#x8166;&#x5167;&#x3002;&#x4F46;&#x662F;&#xFF0C;&#x6578;&#x64DA;&#x91CF;&#x592A;&#x591A;&#x7684;&#x8A71;&#xFF0C;&#x9019;&#x500B;&#x65B9;&#x6CD5;&#x5C31;&#x6703;&#x8B8A;&#x5F97;&#x76F8;&#x7576;&#x6C92;&#x6709;&#x6548;&#x7387;&#xFF0C;&#x56E0;&#x70BA;&#x4E0D;&#x8AD6;&#x5132;&#x5B58;&#x3001;&#x641C;&#x7D22;&#x3001;&#x4EE5;&#x81F3;parsing&#x7684;&#x904B;&#x884C;&#x6642;&#x9593;&#x90FD;&#x6703;&#x5F88;&#x9577;&#x3002; &#x56E0;&#x6B64;&#xFF0C;&#x5982;&#x679C;&#x8981;&#x8655;&#x7406;&#x5927;&#x6578;&#x64DA;&#xFF0C;&#x5C31;&#x53EF;&#x80FD;&#x8981;&#x4F7F;&#x7528;&#x53E6;&#x5916;&#x4E00;&#x7A2E;&#x5F62;&#x5F0F;&#x7684;&#x6578;&#x64DA;&#x5EAB;&#x5C07;&#x7DB2;&#x9801;&#x6578;&#x64DA;&#x5132;&#x5B58;&#x8D77;&#x4F86;&#xFF0C;&#x4F8B;&#x5982;SQL&#x6216;mongoDB&#x3002;&#x7576;&#x7136;&#xFF0C;&#x9019;&#x500B;&#x65B9;&#x6CD5;&#x7684;&#x64CD;&#x4F5C;&#x76F8;&#x5C0D;&#x8907;&#x96DC;&#xFF0C;&#x5C0D;&#x7DE8;&#x7A0B;&#x6709;&#x4E00;&#x5B9A;&#x8981;&#x6C42;&#x3002; &#x7E3D;&#x62EC;&#x800C;&#x8A00;&#xFF0C;&#x8981;&#x5165;&#x624B;web scraping&#x7684;&#x8A71;&#xFF0C;&#x53EF;&#x4EE5;&#x8A18;&#x4F4F;&#x4EE5;&#x4E0B;&#x7684;&#x95DC;&#x9375;&#x5B57;&#xFF1A;xpath&#x3001;requests&#x3001;&#x4EE5;&#x53CA;Selenium&#x3002;Google&#x4E00;&#x4E0B;&#x5C31;&#x6703;&#x767C;&#x73FE;&#x6709;&#x4E0D;&#x5C11;&#x53EF;&#x9760;&#x7684;&#x81EA;&#x5B78;&#x6E20;&#x9053;&#xFF0C;&#x521D;&#x5B78;&#x8005;&#x4E5F;&#x80FD;&#x5F88;&#x5FEB;&#x4E0A;&#x624B;&#x3002; &#x6709;&#x4EC0;&#x9EBC;&#x554F;&#x984C;&#x6B61;&#x8FCE;&#x518D;&#x554F;&#xFF0C;&#x5E0C;&#x671B;&#x5E6B;&#x5230;&#x5927;&#x5BB6;&#x3002; &#x9322;&#x741B;</description></oembed>
