利用Scrapy實現(xiàn)公司內(nèi)部門戶消息郵件通知

tuantuan 發(fā)布于2019-07-30 17:16 / 2807人閱讀

摘要：一項目背景我本人所在公司是一個國有企業(yè)，自建有較大的內(nèi)部網(wǎng)絡(luò)門戶群，幾乎所有部門發(fā)布各類通知工作要求等消息都在門戶網(wǎng)站進行。為了改變這種狀況，就想建立一個內(nèi)部網(wǎng)絡(luò)消息跟蹤通知系統(tǒng)。

一、項目背景

　　我本人所在公司是一個國有企業(yè)，自建有較大的內(nèi)部網(wǎng)絡(luò)門戶群，幾乎所有部門發(fā)布各類通知、工作要求等消息都在門戶網(wǎng)站進行。由于對應(yīng)的上級部門比較多，各類通知通告、領(lǐng)導(dǎo)講話等內(nèi)容類目繁多，要看一遍真需要花費點時間。更重要的是有些會議通知等時效性比較強的消息一旦遺漏錯過重要會議就比較麻煩。為了改變這種狀況，就想建立一個內(nèi)部網(wǎng)絡(luò)消息跟蹤、通知系統(tǒng)。

二、基本功能

　　主要功能：系統(tǒng)功能比較簡單，主要就是爬取內(nèi)部網(wǎng)絡(luò)固定的一些通知頁面，發(fā)現(xiàn)新的通知就向指定的人發(fā)送通知郵件。
　　涉及到的功能點：
　　1.常規(guī)頁面請求
　　2.post請求
　　3.數(shù)據(jù)存儲
　　4.識別新消息
　　5.郵件通知
　　6.定時啟動，循環(huán)運行

三、詳細說明 （一）文件結(jié)構(gòu)

　　上圖顯示了完成狀態(tài)的文件結(jié)構(gòu)，與新建的scrapy項目相比增加的文件有兩部分：
　　一是spiders目錄下的6個爬蟲文件，對應(yīng)了6個欄目，以后根據(jù)需要還會再增加；
　　二是涉及定時啟動、循環(huán)運行功能的幾個文件，分別是commands文件夾、noticeStart.py、setup.py、autorun.bat

（二）各部分代碼 1. items.py

import scrapy

class JlshNoticeItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    noticeType = scrapy.Field()     #通知類別
    noticeTitle = scrapy.Field()    #通知標(biāo)題
    noticeDate = scrapy.Field()     #通知日期
    noticeUrl = scrapy.Field()      #通知URL
    noticeContent = scrapy.Field()  #通知內(nèi)容

2. spider

　　篇幅關(guān)系，這里只拿一個爬蟲做例子，其它的爬蟲只是名稱和start_url不同，下面代碼盡量做到逐句注釋。

代碼

from scrapy import Request
from scrapy import FormRequest
from scrapy.spiders import Spider
from jlsh_notice.items import JlshNoticeItem
from jlsh_notice.settings import DOWNLOAD_DELAY
from scrapy.crawler import CrawlerProcess
from datetime import date
import requests
import lxml
import random
import re
#=======================================================
class jlsh_notice_spider_gongsitongzhi(Spider):
    #爬蟲名稱
    name = "jlsh_gongsitongzhi"
    
    start_urls = [
        "http://www.jlsh.petrochina/sites/jlsh/news/inform/Pages/default.aspx", #公司通知
    ]
#=======================================================
    #處理函數(shù)
    def parse(self, response):
        noticeList = response.xpath("http://ul[@class="w_newslistpage_list"]//li")
#=======================================================
        #創(chuàng)建item實例
        item = JlshNoticeItem()
        for i, notice in enumerate(noticeList):
            item["noticeType"] = "公司通知"

            item["noticeTitle"] = notice.xpath(".//a/@title").extract()[0]

            item["noticeUrl"] = notice.xpath(".//a/@href").extract()[0]
#=======================================================
            dateItem = notice.xpath(".//span[2]/text()").extract()[0]
            pattern = re.compile(r"d+")
            datetime = pattern.findall(dateItem)
            yy = int(datetime[0])+2000
            mm = int(datetime[1])
            dd = int(datetime[2])
            item["noticeDate"] = date(yy,mm,dd)
#=======================================================
            content_html = requests.get(item["noticeUrl"]).text
            content_lxml = lxml.etree.HTML(content_html)
            content_table = content_lxml.xpath( 
                "http://div[@id="contentText"]/div[2]/div | 
                //div[@id="contentText"]/div[2]/p")
            
            
            item["noticeContent"] = []
            for j, p in enumerate(content_table):
                p = p.xpath("string(.)")
                #print("p:::::",p)
                p = p.replace("xa0"," ")
                p = p.replace("u3000", " ")
                item["noticeContent"].append(p)

            yield item
#=======================================================
        pages = response.xpath("http://div[@class="w_newslistpage_pager"]//span")
        nextPage = 0
        for i, page_tag in enumerate(pages):
            page = page_tag.xpath("./a/text()").extract()[0]
            page_url = page_tag.xpath("./a/@href").extract()
            if page == "下一頁>>":
                pattern = re.compile(r"d+")
                page_url = page_url[0]
                nextPage = int(pattern.search(page_url).group(0))
                break
#=======================================================
        if nextPage > 0 :
            postUrl = self.start_urls[0]
            formdata = {
                "MSOWebPartPage_PostbackSource":"",
                "MSOTlPn_SelectedWpId":"",
                "MSOTlPn_View":"0",
                "MSOTlPn_ShowSettings":"False",
                "MSOGallery_SelectedLibrary":"",
                "MSOGallery_FilterString":"",
                "MSOTlPn_Button":"none",
                "__EVENTTARGET":"",
                "__EVENTARGUMENT":"",
                "__REQUESTDIGEST":"",
                "MSOSPWebPartManager_DisplayModeName":"Browse",
                "MSOSPWebPartManager_ExitingDesignMode":"false",
                "MSOWebPartPage_Shared":"",
                "MSOLayout_LayoutChanges":"",
                "MSOLayout_InDesignMode":"",
                "_wpSelected":"",
                "_wzSelected":"",
                "MSOSPWebPartManager_OldDisplayModeName":"Browse",
                "MSOSPWebPartManager_StartWebPartEditingName":"false",
                "MSOSPWebPartManager_EndWebPartEditing":"false",
                "_maintainWorkspaceScrollPosition":"0",
                "__LASTFOCUS":"",
                "__VIEWSTATE":"",
                "__VIEWSTATEGENERATOR":"15781244",
                "query":"",
                "database":"GFHGXS-GFJLSH",
                "sUsername":"",
                "sAdmin":"",
                "sRoles":"",
                "activepage":str(nextPage),
                "__spDummyText1":"",
                "__spDummyText2":"",
                "_wpcmWpid":"",
                "wpcmVal":"",
            }

            yield FormRequest(postUrl,formdata=formdata, callback=self.parse)

說明，以下說明要配合上面源碼來看，不多帶帶標(biāo)注了

start_urls #要爬取的頁面地址，由于各個爬蟲要爬取的頁面規(guī)則略有差異，所以做了6個爬蟲，而不是在一個爬蟲中寫入6個URL。通過查看scrapy源碼，我們能夠看到，start_urls中的地址會傳給一個內(nèi)件函數(shù)start_request（這個函數(shù)可以根據(jù)自己需要進行重寫），start_request向這個start_urls發(fā)送請求以后，所得到的response會直接轉(zhuǎn)到下面parse函數(shù)處理。

xpath ，下圖是頁面源碼：
通過xpath獲取到response中class類是"w_newslistpage_list"的ul標(biāo)簽下的所有l(wèi)i標(biāo)簽，這里所得到的就是通知的列表，接下來我們在這個列表中做循環(huán)。

先看下li標(biāo)簽內(nèi)的結(jié)構(gòu)：
notice.xpath(".//a/@title").extract()[0] #獲取li標(biāo)簽內(nèi)a標(biāo)簽中的title屬性內(nèi)容，這里就是通知標(biāo)題
notice.xpath(".//a/@href").extract()[0] #獲取li標(biāo)簽內(nèi)a標(biāo)簽中的href屬性內(nèi)容，這里就是通知鏈接
notice.xpath(".//span[2]/text()").extract()[0] #獲取li標(biāo)簽內(nèi)第二個span標(biāo)簽中的內(nèi)容，這里是通知發(fā)布的日期
接下來幾行就是利用正則表達式講日期中的年、月、日三組數(shù)字提取出來，在轉(zhuǎn)換為日期類型存入item中。

再下一段，是獲得通知內(nèi)容，這里其實有兩種方案，一個是用scrapy的request發(fā)送給內(nèi)部爬蟲引擎，得到另外一個response后再進行處理，另一種就是我現(xiàn)在這樣直接去請求頁面。由于內(nèi)容頁面比較簡單，只要獲得html代碼即可，所以就不麻煩scrapy處理了。
request.get得到請求頁面的html代碼
利用lxml庫的etree方法格式化html為xml結(jié)構(gòu)
利用xpath獲取到div[@id="contentText"]內(nèi)所有p標(biāo)簽、div標(biāo)簽節(jié)點。（可以得到99%以上的頁面內(nèi)容）
所得到的所有節(jié)點將是一個list類型數(shù)據(jù)，所有我們做一個for in循環(huán)
p.xpath("string(.)") 是獲取到p標(biāo)簽或div標(biāo)簽中的所有文本，而無視其他html標(biāo)簽。
用replace替換到頁面中的半角、全角空格（xa0、u3000）
每得到一行清洗過的數(shù)據(jù)，就將其存入item["noticeContent"]中
最后將item輸出

在scrapy中，yield item后，item會提交給scrapy引擎，再又引擎發(fā)送給pipeline處理。pipeline一會再說。

接下來的代碼就是處理翻頁。這里的頁面翻頁是利用js提交請求完成的，提交請求后，會response一個新的頁面列表
首先利用xpath找到頁面導(dǎo)航欄的節(jié)點，在獲取到的所有節(jié)點中做for in循環(huán)，直到找到帶有“下一頁”的節(jié)點，這里有下一頁的頁碼，還是利用正則表達式來得到它，并將其轉(zhuǎn)為int類型。

yield FormRequest(postUrl,formdata=formdata, callback=self.parse)

利用scrpay自帶的FormRequest發(fā)送post請求，這里的formdata是跟蹤post請求時得到的，要根據(jù)自己的網(wǎng)站調(diào)整，callback指示講得到的response反饋給parse函數(shù)處理（也就是新的一頁列表）

到此為止，就是spider文件的所有，這個文件唯一對外的輸出就是item，它會有scrapy引擎轉(zhuǎn)給pipeline處理

3. pipeline 代碼

from scrapy import signals
from scrapy.contrib.exporter import CsvItemExporter
from jlsh_notice import settings
import pymysql
import time

import smtplib
from email.mime.text import MIMEText
from email.utils import formataddr


class JlshNoticePipeline(object):
    def process_item(self, item, spider):
        return item


# 用于數(shù)據(jù)庫存儲
class MySQLPipeline(object):
    def process_item(self, item, spider):
#=======================================================
        self.connect = pymysql.connect(
            host=settings.MYSQL_HOST,
            port=3306,
            db=settings.MYSQL_DBNAME,
            user=settings.MYSQL_USER,
            passwd=settings.MYSQL_PASSWD,
            charset="utf8",
            use_unicode=True)

        # 通過cursor執(zhí)行增刪查改
        self.cursor = self.connect.cursor()
#=======================================================
        # 查重處理
        self.cursor.execute(
            """select * from jlsh_weblist where 
                noticeType = %s and 
                noticeTitle = %s and
                noticeDate = %s """,
            (item["noticeType"], item["noticeTitle"], item["noticeDate"]))
        # 是否有重復(fù)數(shù)據(jù)
        repetition = self.cursor.fetchone()
#=======================================================
        # 重復(fù)
        if repetition:
            print("===== Pipelines.MySQLPipeline ===== 數(shù)據(jù)重復(fù)，跳過，繼續(xù)執(zhí)行..... =====")
        else:
            # 插入數(shù)據(jù)
            content_html = ""
            for p in item["noticeContent"]:
                content_html = content_html + "" + p + ""

            self.cursor.execute(
                """insert into jlsh_weblist(noticeType, noticeTitle, noticeDate, noticeUrl, noticeContent, record_time)
                value (%s, %s, %s, %s, %s, %s)""",
                (item["noticeType"], item["noticeTitle"], item["noticeDate"], item["noticeUrl"], content_html, time.localtime(time.time())))

            try:
                # 提交sql語句
                self.connect.commit()
                print("===== Insert Success ! =====", 
                    item["noticeType"], item["noticeTitle"], item["noticeDate"], item["noticeUrl"])
            except Exception as error:
                # 出現(xiàn)錯誤時打印錯誤日志
                print("===== Insert error: %s ====="%error)
#=======================================================
            #定向發(fā)送郵件
            if settings.SEND_MAIL:
                sender="***@***.com"    # 發(fā)件人郵箱賬號
                password = "********"              # 發(fā)件人郵箱密碼
                receiver="*****@*****.com"      # 收件人郵箱賬號，我這邊發(fā)送給自己
                title = item["noticeTitle"]
                content = """
                    %s
                    %s
                    %s
                    %s
                    """ % (item["noticeType"], item["noticeUrl"], item["noticeTitle"], item["noticeDate"], content_html)

                ret=self.sendMail(sender, password, receiver, title, content)
                if ret:
                    print("郵件發(fā)送成功")
                else:
                    print("郵件發(fā)送失敗")
                pass
            
        self.connect.close()
        return item
#=======================================================
    def sendMail(self, sender, password, receiver, title, content):
        ret=True
        try:
            msg=MIMEText(content,"html","utf-8")
            msg["From"]=formataddr(["", sender])            # 括號里的對應(yīng)發(fā)件人郵箱昵稱、發(fā)件人郵箱賬號
            msg["To"]=formataddr(["",receiver])             # 括號里的對應(yīng)收件人郵箱昵稱、收件人郵箱賬號
            msg["Subject"]="郵件的主題 " + title    # 郵件的主題，也可以說是標(biāo)題
    
            server=smtplib.SMTP("smtp.*****.***", 25)  # 發(fā)件人郵箱中的SMTP服務(wù)器，端口是25
            server.login(sender, password)  # 括號中對應(yīng)的是發(fā)件人郵箱賬號、郵箱密碼
            server.sendmail(sender,[receiver,],msg.as_string())  # 括號中對應(yīng)的是發(fā)件人郵箱賬號、收件人郵箱賬號、發(fā)送郵件
            server.quit()  # 關(guān)閉連接
        except Exception:  # 如果 try 中的語句沒有執(zhí)行，則會執(zhí)行下面的 ret=False
            ret=False
        return ret
#=======================================================

說明

這里的pipeline是我自己建立的，寫好后在setting中改一下設(shè)置就可以了。因為scrapy的去重機制只針對爬蟲一次運行過程有效，多次循環(huán)爬取就不行了，所以為了實現(xiàn)不爬取重復(fù)數(shù)據(jù)，使用mysql就是比較靠譜的選擇了。

pymysql是python鏈接mysql的包，沒有的話pip安裝即可。
首先建立一個pymysql.connect實例，將連接mysql的幾個參數(shù)寫進去，我這里是先寫到setting里面再導(dǎo)入，也可以直接寫，值得注意的是port參數(shù)（默認是3306）不要加引號，因為它必須是int類型的。

接下來建立一個cursor實例，用于對數(shù)據(jù)表進行增刪查改。
cursor.execute() 方法是定義要執(zhí)行的sql命令，這里注意就是execute只是定義，不是執(zhí)行。
cursor.fetchone() 方法是執(zhí)行sql并返回成功與否的結(jié)果。這里進行了數(shù)據(jù)查詢，如果能夠查到，說明這條記錄已經(jīng)建立，如果沒有，就可以新增數(shù)據(jù)了。

由mysql數(shù)據(jù)庫不接受list類型的數(shù)據(jù)，所以接下來要對item["noticeContent"]做一下處理（他是list類型的，還記得么^_^）。在item["noticeContent"]中做for in循環(huán)，把他的每一項內(nèi)容用標(biāo)簽包起來，組成一個長字符串。

接下來還是寫sql命令：insert into .....
寫完以后用connect.commit()提交執(zhí)行

最后就是發(fā)送郵件了，自建一個sendMail函數(shù)，發(fā)送郵件用到了兩個python包：smtplib 和 email，具體沒啥說的，照著寫就行了，我是一次成功。。

到此為止，就可以運行爬蟲了，可以看到數(shù)據(jù)庫中已經(jīng)有了爬取的內(nèi)容。。。

4. settings.py

注冊pipeline

ITEM_PIPELINES = {
    "jlsh_notice.pipelines.MySQLPipeline": 300,
}

log輸出的定義，四個任選其一

LOG_LEVEL = "INFO"
LOG_LEVEL = "DEBUG"
LOG_LEVEL = "WARNING"
LOG_LEVEL = "CRITICAL"

關(guān)于爬蟲終止條件的定義，默認不設(shè)置

#在指定時間過后，就終止爬蟲程序.
CLOSESPIDER_TIMEOUT = 60

#抓取了指定數(shù)目的Item之后，就終止爬蟲程序.
CLOSESPIDER_ITEMCOUNT = 10

#在收到了指定數(shù)目的響應(yīng)之后，就終止爬蟲程序.
CLOSESPIDER_PAGECOUNT = 100

#在發(fā)生了指定數(shù)目的錯誤之后，就終止爬蟲程序.
CLOSESPIDER_ERRORCOUNT = 100

5. 實現(xiàn)自動執(zhí)行 (1) 同時執(zhí)行多個爬蟲。

首先，在項目目錄下建立新的目錄（與spider目錄同級），名為“commands”，內(nèi)建兩個文件：

__init__.py    (空文件，但是要有）

crawlall.py

from scrapy.commands import ScrapyCommand
from scrapy.utils.project import get_project_settings
 
 
class Command(ScrapyCommand):
 
    requires_project = True
 
    def syntax(self):
        return "[options]"
 
    def short_desc(self):
        return "Runs all of the spiders"
 
    def run(self, args, opts):
        spider_list = self.crawler_process.spiders.list()
        for name in spider_list:
            self.crawler_process.crawl(name, **opts.__dict__)
        self.crawler_process.start()

然后在項目目錄下建立一個setup.py文件

from setuptools import setup, find_packages

setup(name="scrapy-mymodule",
    entry_points={
        "scrapy.commands": [
            "crawlall=jlsh_notice.commands:crawlall",
            ],
        },
    )

這個時候，在scrapy項目目錄下執(zhí)行scrapy crawlall即可運行所有的爬蟲

(2) 每隔一段時間運行爬蟲。

在項目目錄下新建一個noticeStart.py文件（名稱任意）,利用python中的os和time包實現(xiàn)每隔一段時間運行一個命令。

import time
import os

while True:
    os.system("scrapy crawlall")
    remindTime = 5
    remindCount = 0
    sleepTime = 60
    while remindCount * remindTime < sleepTime:
        time.sleep(remindTime*60)
        remindCount = remindCount + 1
        print("已等待%s分鐘，距離下一次搜集數(shù)據(jù)還有%s分鐘......"%(remindCount*remindTime,(sleepTime/remindTime-(remindCount))*remindTime))

(3) 實現(xiàn)開機運行。

首先：由于cmd命令打開目錄在c盤，我的scrapy項目在e盤，所以要做一個bat文件跳轉(zhuǎn)目錄并運行py文件

autorun.bat

e:
cd e:PythonProjectsScrapyProjectsjlsh_noticejlsh_notice
python noticeStart.py

其次：打開計劃任務(wù)程序，創(chuàng)建基本任務(wù)，運行程序選擇剛剛的bat文件，值得說明的是，計劃任務(wù)觸發(fā)器不要設(shè)置啟動后立即執(zhí)行，不然可能會失敗，要延遲1分鐘運行。

到此為止，所有的代碼完成，以后還要根據(jù)實際情況增加更多的通知類別，也可以根據(jù)不同領(lǐng)導(dǎo)的關(guān)注點不同，分別發(fā)送郵件提醒。歡迎有興趣的朋友留言交流。。。

云服務(wù)器 GPU云服務(wù)器公司內(nèi)部郵件系統(tǒng) 消息通知系統(tǒng)通知消息系統(tǒng)消息通知

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/42115.html

發(fā)表評論

登陸后可評論

0條評論

tuantuan

男|高級講師

我要關(guān)注我要私信

TA的文章

#黑五#spinservers：2*E5-2683 v4/512G/2x 3.84T/圣何塞/首月$

閱讀 2430·2021-11-24 10:31
二叉樹的前中后序遍歷（非遞歸實現(xiàn)）

閱讀 3487·2021-11-23 09:51
未來十年的云計算發(fā)展有什么期望？

閱讀 2327·2021-11-15 18:11
LeetCode 179. 最大數(shù)【c++/java詳細題解】

閱讀 2450·2021-09-02 15:15
前端入門-day2（常見css問題及解答）

閱讀 2516·2019-08-29 17:02
深入理解-CSS內(nèi)聯(lián)元素之font-size

閱讀 2346·2019-08-29 15:04
JQuery干貨篇之處理元素

閱讀 908·2019-08-29 12:27
盒模型一二三（一）：盒世界，知幾何

閱讀 2921·2019-08-28 18:15

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

利用Scrapy實現(xiàn)公司內(nèi)部門戶消息郵件通知

相關(guān)文章

**如何通過 Scrapyd + ScrapydWeb 簡單高效地部署和監(jiān)控分布式爬蟲項目**

**部署Scrapy分布式爬蟲項目**

常見的企業(yè)管理系統(tǒng)

告警分析：如何幫助運維團隊快速做出最佳決策？

發(fā)表評論

0條評論

tuantuan

男|高級講師

TA的文章

#黑五#spinservers：2*E5-2683 v4/512G/2x 3.84T/圣何塞/首月$

二叉樹的前中后序遍歷（非遞歸實現(xiàn)）

未來十年的云計算發(fā)展有什么期望？

LeetCode 179. 最大數(shù)【c++/java詳細題解】

前端入門-day2（常見css問題及解答）

深入理解-CSS內(nèi)聯(lián)元素之font-size

JQuery干貨篇之處理元素

盒模型一二三（一）：盒世界，知幾何

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

利用Scrapy實現(xiàn)公司內(nèi)部門戶消息郵件通知

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！