永利爆大奖安全网址-永利爆大奖线路检测中心

【永利爆大奖安全网址,永利爆大奖线路检测中心】,欢迎来到【LG】娱乐中心,玩你所玩,看你所看,澳门皇冠,太阳集团,澳门太阳赌城,永利402,55402com永利,永利402com,澳门十大赌场,手机网投平台,赌博app官网,永利官网,永利国际,永利皇宫,永利注册,金沙城,金沙官网奥门金沙网址,4166am金沙,我们是一家正规的网上官方平台,自创建以来,以其稳定、安全、快捷和良好的信誉得到了各界同仁的一致认可和好评。期待您的到来!

Python抓取京东图书评论数据

日期:2020-01-05编辑作者:关于计算机

Python抓取京东图书争辨数据,python图书商量

 京东图书议论有特别丰硕的音讯,那中间就隐含了购置日期、书名、小编、美评、中评、差评等等。以购买日期为例,使用Python

  • Mysql的反衬进行落实,程序非常小,才100行。相关的演说自个儿都在程序里加注了:

from selenium import webdriver
from bs4 import BeautifulSoup
import re
import win32com.client
import threading,time
import MySQLdb

def mydebug():
    driver.quit()
    exit(0)

def catchDate(s):
    """页面数据提取"""
    soup = BeautifulSoup(s)
    z = []
    global nowtimes
   
    m = soup.findAll("div",class_="date-buy")
    for obj in m:
        try:
            tmp = obj.find('br').contents
        except Exception, e:
            continue
        if(tmp != ""):
            z.append(tmp)
            nowtimes += 1
    return z

def getTimes(n,t):
    """获取当前行度"""
    return "当前速度为:" + str(int(100*n/t)) + "%"

#———————————————————————————————————| 程序最初|—————————————————————————————————
#规定图书大类
cate = {"3273":"历史","3279":"心境学","3276":"政治军事","3275":"国学古籍","3274":"艺术学宗教","3277":"法律","3280":"文化","3281":"社科"}

#断点续抓
num1 = input("bookid:")
num2 = input("pagenumber:")

#扭转图书大类链接,共需17355*20 = 347100次
totaltimes = 347100.0
nowtimes = 0

#开启webdirver的PhantomJS对象
#driver = webdriver.PhantomJS()
driver = webdriver.Ie('C:Python27ScriptsIEDriverServer')
#driver = webdriver.Chrome('C:Python27Scriptschromedriver')

#读出Mysql中的争论页面,进行抓取
# 连接数据库 
try:
    conn = MySQLdb.connect(host='localhost',user='root',passwd='',db='jd')
except Exception, e:
    print e
    sys.exit()

# 获取cursor对象
cursor = conn.cursor()
sql = "SELECT * FROM booknew ORDER BY pagenumber DESC"
cursor.execute(sql)
alldata = cursor.fetchall()

flag = 0
flag2 = 0

# 假若有数量重回就循环输出,
if alldata:
    for rec in alldata:
        #rec[0]--bookid,rec[1]--cateid,rec[2]--pagenumber
        if(rec[0] != str(num1) and flag == 0):
            continue
        else:
            flag = 1
        for p in range(num2,rec[2]):
            if(flag2 == 0):
                num2 = 0
                flag2 = 1
            p += 1
            link = "" + rec[0] + "-1-" + str(p) + ".html"
            #抓网页
            driver.get(link)
            html = driver.page_source
            #抓评论
            buydate = catchDate(html)
            #写入数据库
            for z in buydate:
                sql = "INSERT INTO ljj (id, cateid, bookid, date) VALUES (NULL, '" + rec[0] + "','" + rec[1] + "','" + z[0] + "');"
                try:
                    cursor.execute(sql)
                except Exception, e:
                    print e
            conn.commit()
        print getTimes(nowtimes,totaltimes)

driver.quit()
cursor.close()
conn.close()

要上学Python来抓取多少,问什书籍比较好,有明白的介绍部分~

《Python学习手册》
《Python宗旨编制程序》(第二版)(第三版)都得以。
本身有有关的E-BOOK  

python抓取数据的难题

1) Beautiful Soup 能用吗?
2卡塔尔国 截图的话,外人没办法直接帮您试验的。  

京东图书批评有特别充分的新闻,那此中就包含了购置日期、书名、作者、美评、中评、差评等...

本文由永利爆大奖安全网址发布于关于计算机,转载请注明出处:Python抓取京东图书评论数据

关键词:

iOS中的深拷贝和浅拷贝的求学记录

ios对象copy的方法,要实现nscopy协议   ios对象copy的方法,要实现nscopy协议 by 伍雪颖 - (id)copyWithZone:(NSZone *)zone{ RestEntity...

详细>>

Linux查看程序

Linux查看程序、进度的注重库的不二等秘书技 1. 用到ldd查看可执路程序的信赖库 [[email protected]~]# ldd /usr/local/php/bin...

详细>>

Computer根基

一、计算机基础,,计算机基础 计算机基础 一、我们为什么要学习计算机基础 我们学习python离不开计算机基础,想要...

详细>>

六招远隔服务器数据竟然错过,六艺术帮你找回

服务器数据竟然错失了怎么办,已经不见或从不遗失的同室们无妨看看以下六招,可能能令你远远地离开遗失数据的...

详细>>