玩玩Python两大爬虫利器Selenium、Beautiful Soup以及着空关、命运轮盘

2018-10-08 约 1944 字 预计阅读 4 分钟

Python用于内容获取真是太好用,早几年知道这个工具,还学什么windows下的delphi、VC之流。

Selenium可以使得Python可以自动模拟浏览器浏览网站。安装命令:
sudo pip3 install selenium

比如一个网站截图,数行代码足以搞定
from selenium import webdriver
from selenium.webdriver.firefox.options import Options

options = Options()
options.set_headless(headless=True)
driver = webdriver.Firefox(firefox_options=options)#,firefox_profile=fp)

driver.set_window_size(1280, 1024)
driver.get('https://jesselau.com')

driver.save_screenshot('firefoximage.png')

这是调用firefox来进行浏览截图,也可以调用chrome。
from selenium import webdriver

from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
driver = webdriver.Chrome(chrome_options=chrome_options)

driver.set_window_size(1280, 1024) # set the window size that you need
driver.get('https://jesselau.com/')
driver.save_screenshot('chrome.png')

但chrome很奇怪的会将右侧边栏也一起截图。如他的截图如下:



 

而firefox的截图则较为好看:



 

不明chrome的原因,也许也可以设置修掉右边边栏,但我也没有这么执着。御物而不御于物,Firefox可以用就用firefox。

截图了,需要将文字也一并导出。Selenium提供了一个driver.page_source属性即为HTML源码。

但怎样将之导出为阅读性较高的文本呢。

需要安装Beautiful Soup
apt-get install python3-bs4

几行代码就可以将HTML导出文本
from bs4 import BeautifulSoup

........

soup = BeautifulSoup(driver.page_source, "lxml")
for script in soup(["script", "noscript","style"]):
script.extract() # rip it out
unwantedclass = soup.find("div",{"class":"something unwanted"})
unwantedclass.extract()
content= soup.get_text()
print (content)

BeautifulSoup强就强在其过滤功能,很轻松的将javascript、css给过滤掉,也可以自己找不想显示文本的类,然后用extract函数过滤掉。




前两天写的悬虚关,理解为顽空,今天再看通关文,有一关叫着空关
发阿耨多罗三藐三菩提心者,於法不说断灭相。

智者禅师曰:法法生妙法,空空体不空;断灭不断灭,智觉悟深宗。

心经云:舍利子,色不异空,空不异色。色即是空,空即是色。

悟真曰:饶君了悟真如性,未免抛身却入身。何似更兼修大药,顿超无漏作真人。

缘督子曰:今人学道者不得正传,不悟平叔未炼还丹莫入山之语,惟欲避喧求静,遁世远人,出妻屏子,离尘绝俗,穷谷深山独居孤处,以为自高,如此则弃世间法也。

三丰子曰:再休夸清静无为也得还丹。

此皆言大道真空不空,而非顽空寂灭之学也。

夫道也者,至无而含至有,至虚而含至实,空而不空,不空而空,乃法财两用,有无一致,无为而无不为。

试观天地无为而万物生,日月无为而四时运,圣人无为而天下治,是无为之中而有为,非空空无为之说。

若以空空无为为道,则道为死物,非天地日月圣人之道,乃木雕泥塑无用之道,何足以为道哉?

夫所谓道者,径路也。

人通行者为径路,无人行者非径路,可知性命之学,必先求其知,而后力其行。

知所以为行,行所以全知。

况修真者,修行也,空寂之学,何云修行,谓之守空则可,谓之修行则不可。

故顽空事物,古人有磨砖作镜之讥,积雪为粮之讽,盖因其虚而不实也。

世间糊涂学人,不究道之源流,不辨理之是非。

或灰心止念,忘物忘形;或空谷守静,一尘不染;或守定一窍,养气存神;或目注顶上,一意不散;或对镜定视,冀望出神;或念存明堂,想像赤珠。

如此等类,皆是顽空断灭之事,非是修道,实是昧道,如何能复初归根,了性了命,形神俱妙,与道合真,超出乎阴阳造化之外哉?

况人自有生以来,受后天阴阳五行之偏气,又带无始劫以来轮回根尘之杂气,若无点化群阴之大法,扭转造化之本领,只以空空无为毕其事,怎能返阴为阳,拔去历劫孽苦种子乎?

吾劝真心学道者,速将着空关口打通。

急访明师,另求个起死回生实落事务,早下功夫,莫要捉风捕影,望梅止渴,耽误路程,空过岁月。

否则,空空无为,无捉无拏,有何实济?妄想成道,难矣。

这是点醒不可顽空守静。如西游记里说道:
祖师道:"教你'静'字门中之道,如何?"

悟空道:"静字门中,是甚正果?"

祖师道:"此是休粮守谷,清静无为,参禅打坐,戒语持斋,或睡功,或立功,并入定坐关之类。"

悟空道:"这般也能长生么?"

祖师道:"也似'窑头土坯'。"

悟空笑道:"师父果有些滴㳠。一行说我不会打市语。怎么谓之'窑头土坯'?"

祖师道:"就如那窑头上,造成砖瓦之坯,虽已成形,尚未经水火煅炼,一朝大雨滂沱,他必滥矣。"

悟空道:"也不长远。不学!不学!"

道是活泼泼无住的,修行修行修的是行。

光是埋头守静不经世事,是无法感受到无为无不为。

庄子说“创造不占有,成功不自居”,道家一向是最为积极的。

尝思考命运为何物,为何同一八字的人物那么多,而成就各不相同。

后渐悟到命理是作用在“所处”中,所谓“所处”,也就是灵宝顶观经里的“涉事之处”,是你人生中经历的事、接触的人、走过的地方,形成的这么一个轨迹空间

在那个空间里你的命理和命运是合拍的。

比如与马云同八字的人,在他那个轨迹空间里必然也是顶尖。

各个人物的轨迹空间不尽相同,也会时有交织重合,形成了所谓的社会阶层,而八字和人生轨迹形成了时间与空间结合而成的螺旋形命运轮盘。

所以古人除了读万卷书,还要行万里路,扩大自己的人生轨迹。

故此学道者应观照时事,遍历遍知。
本是疏散人,偶做名利客。

坐看庭前云卷舒,定心观天阔。

大志为逍遥,勿论对与错。

待到乾坤遍历时,笑对丘山卧。

author

本文由Jesse Lau原创

2012年定居新西兰至今,自由职业者,从事网站和程式交易,曾获得Dukascopy外汇程序交易比赛2届月度冠军(id:Tradingwithea).
本文采用知识共享署名 4.0 国际许可协议进行许可。


留点评论吧:

本网站使用cookie技术以提高用户体验度。 了解我们的隐私政策 我已了解