玩玩Python兩大爬蟲利器Selenium、Beautiful Soup以及著空關、命運輪盤

2018-10-08 约 1944 字 预计阅读 4 分钟

Python用於內容獲取真是太好用,早幾年知道這個工具,還學什麼windows下的delphi、VC之流。

Selenium可以使得Python可以自動模擬瀏覽器瀏覽網站。安裝命令:
sudo pip3 install selenium

比如一個網站截圖,數行代碼足以搞定
from selenium import webdriver
from selenium.webdriver.firefox.options import Options

options = Options()
options.set_headless(headless=True)
driver = webdriver.Firefox(firefox_options=options)#,firefox_profile=fp)

driver.set_window_size(1280, 1024)
driver.get('https://jesselau.com')

driver.save_screenshot('firefoximage.png')

這是調用firefox來進行瀏覽截圖,也可以調用chrome。
from selenium import webdriver

from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
driver = webdriver.Chrome(chrome_options=chrome_options)

driver.set_window_size(1280, 1024) # set the window size that you need
driver.get('https://jesselau.com/')
driver.save_screenshot('chrome.png')

但chrome很奇怪的會將右側邊欄也一起截圖。如他的截圖如下:



 

而firefox的截圖則較為好看:



 

不明chrome的原因,也許也可以設置修掉右邊邊欄,但我也沒有這麼執著。禦物而不禦於物,Firefox可以用就用firefox。

截圖了,需要將文字也一並導出。Selenium提供了一個driver.page_source屬性即為HTML源碼。

但怎樣將之導出為閱讀性較高的文本呢。

需要安裝Beautiful Soup
apt-get install python3-bs4

幾行代碼就可以將HTML導出文本
from bs4 import BeautifulSoup

........

soup = BeautifulSoup(driver.page_source, "lxml")
for script in soup(["script", "noscript","style"]):
script.extract() # rip it out
unwantedclass = soup.find("div",{"class":"something unwanted"})
unwantedclass.extract()
content= soup.get_text()
print (content)

BeautifulSoup強就強在其過濾功能,很輕鬆的將javascript、css給過濾掉,也可以自己找不想顯示文本的類,然後用extract函數過濾掉。




前兩天寫的懸虛關,理解為頑空,今天再看通關文,有一關叫著空關
發阿耨多羅三藐三菩提心者,於法不說斷滅相。

智者禪師曰:法法生妙法,空空體不空;斷滅不斷滅,智覺悟深宗。

心經雲:舍利子,色不異空,空不異色。色即是空,空即是色。

悟真曰:饒君了悟真如性,未免拋身卻入身。何似更兼修大藥,頓超無漏作真人。

緣督子曰:今人學道者不得正傳,不悟平叔未煉還丹莫入山之語,惟欲避喧求靜,遁世遠人,出妻屏子,離塵絕俗,窮穀深山獨居孤處,以為自高,如此則棄世間法也。

三豐子曰:再休誇清靜無為也得還丹。

此皆言大道真空不空,而非頑空寂滅之學也。

夫道也者,至無而含至有,至虛而含至實,空而不空,不空而空,乃法財兩用,有無一致,無為而無不為。

試觀天地無為而萬物生,日月無為而四時運,聖人無為而天下治,是無為之中而有為,非空空無為之說。

若以空空無為為道,則道為死物,非天地日月聖人之道,乃木雕泥塑無用之道,何足以為道哉?

夫所謂道者,徑路也。

人通行者為徑路,無人行者非徑路,可知性命之學,必先求其知,而後力其行。

知所以為行,行所以全知。

況修真者,修行也,空寂之學,何雲修行,謂之守空則可,謂之修行則不可。

故頑空事物,古人有磨磚作鏡之譏,積雪為糧之諷,蓋因其虛而不實也。

世間糊塗學人,不究道之源流,不辨理之是非。

或灰心止念,忘物忘形;或空穀守靜,一塵不染;或守定一竅,養氣存神;或目注頂上,一意不散;或對鏡定視,冀望出神;或念存明堂,想像赤珠。

如此等類,皆是頑空斷滅之事,非是修道,實是昧道,如何能複初歸根,了性了命,形神俱妙,與道合真,超出乎陰陽造化之外哉?

況人自有生以來,受後天陰陽五行之偏氣,又帶無始劫以來輪回根塵之雜氣,若無點化群陰之大法,扭轉造化之本領,隻以空空無為畢其事,怎能返陰為陽,拔去曆劫孽苦種子乎?

吾勸真心學道者,速將著空關口打通。

急訪明師,另求個起死回生實落事務,早下功夫,莫要捉風捕影,望梅止渴,耽誤路程,空過歲月。

否則,空空無為,無捉無拏,有何實濟?妄想成道,難矣。

這是點醒不可頑空守靜。如西遊記裏說道:
祖師道:"教你'靜'字門中之道,如何?"

悟空道:"靜字門中,是甚正果?"

祖師道:"此是休糧守穀,清靜無為,參禪打坐,戒語持齋,或睡功,或立功,並入定坐關之類。"

悟空道:"這般也能長生麼?"

祖師道:"也似'窯頭土坯'。"

悟空笑道:"師父果有些滴㳠。一行說我不會打市語。怎麼謂之'窯頭土坯'?"

祖師道:"就如那窯頭上,造成磚瓦之坯,雖已成形,尚未經水火煆煉,一朝大雨滂沱,他必濫矣。"

悟空道:"也不長遠。不學!不學!"

道是活潑潑無住的,修行修行修的是行。

光是埋頭守靜不經世事,是無法感受到無為無不為。

莊子說“創造不占有,成功不自居”,道家一向是最為積極的。

嚐思考命運為何物,為何同一八字的人物那麼多,而成就各不相同。

後漸悟到命理是作用在“所處”中,所謂“所處”,也就是靈寶頂觀經裏的“涉事之處”,是你人生中經曆的事、接觸的人、走過的地方,形成的這麼一個軌跡空間

在那個空間裏你的命理和命運是合拍的。

比如與馬雲同八字的人,在他那個軌跡空間裏必然也是頂尖。

各個人物的軌跡空間不盡相同,也會時有交織重合,形成了所謂的社會階層,而八字和人生軌跡形成了時間與空間結合而成的螺旋形命運輪盤。

所以古人除了讀萬卷書,還要行萬裏路,擴大自己的人生軌跡。

故此學道者應觀照時事,遍曆遍知。
本是疏散人,偶做名利客。

坐看庭前雲卷舒,定心觀天闊。

大誌為逍遙,勿論對與錯。

待到乾坤遍曆時,笑對丘山臥。

author

Jesse Lau

網名遁去的一,簡稱遁一。2012年定居新西蘭至今,自由職業者。
本文采用知識共享署名 4.0 國際許可協議進行許可。簡而言之,可隨意轉發轉載,轉載請注明出處。


留点评论吧: