Scrapy简单笔记(二)

数据库操作语言–sql

始建数据库表格的sql语句,输入表格名,括号内是表格的列名【随意】及项目【字符串varchar
varchar(长度), 数字int tiny, 时间datetime, 文本text】

create table 表格名称 (column1 type, column2 type, ......, columnN type)

安插数据到数据库表格中【注意被英文字符,字符串数据要引号包裹】

insert into 表格名称 (column1, column2, column3, ......, columnN) values(值1, 值1, 值1, ......, 值N)

查询语句【这个好复杂得简简单单】

select * from 表格名称

sqlite3链接操作

import sqlite3

conn = sqlite3.connect("db.sqlite") # 名称随意取,后缀也可以随意
cu = conn.cursor # cursor是光标的意思,在查询中很重要

cu.execute("这里放需要执行的sql语句")

# 在执行了查询语句之后,execute函数不会返回任何结果,提取查询出来的结果,需要如下语句
all_result = cu.fetchall()

注意:fetchall函数只能执行同一潮,执行第二不好会见无法获得。cu就是cursor,光标的意。

查询到结果以后,光标在数据头部;执行同样糟糕后,光标就飞至了数的尾部。

苟非需重新用到取数额,只要还查询同一不成就足以了

自然,fetch有差不多只函数,fetchone、fetchall、fetchmany,分别得提取一个、提取全部、提取多个【指定】

数量获得成功之后,一定要是记得关闭

conn.close()

pipelines.py的好像组织分析

def open_spider(self,spider) #这个函数是爬虫开始运行的时候执行,链接sqlite数据库可以放这里

def process_item(self, item, spider) #爬虫从html中分析得到数据,传入item,item被丢到管道文件中,被这个函数接收。将item中的数据分析、清理、入库

def spider_close(self, spider) #爬虫关闭时,所做的操作。一般是关闭文件和关闭数据库

settings.py文件内容

ITEM_PIPELINES = {
   'zufang.pipelines.ZufangPipeline': 300,
}

ITEM_PIPELINES举凡启用的管道文件,在照项目蒙就生一个,直接助长上

背后的数字,范围以1~1000舅虽可了

完整项目代码下充斥链接:https://pan.baidu.com/s/1qYPi2iK

Scrapy课程链接:http://study.163.com/course/courseMain.htm?courseId=1003666043

Python教程、教程–传送门

网站地图xml地图