摘要: 拼接与合并 1. 纵向或横向拼接:pd.concat() # 纵向拼接,在函数中放入列表,里面是想拼接的两个df # 如果列名一致,直接对齐;如果列名不一致,则各列都会保留,空值为NaN pd.concat([df1, df2], ignore_index = True) # >>> 此时索引是各自 阅读全文
posted @ 2024-06-29 15:34 abloger 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 数据清理的步骤 # 一、读取数据 导入NumPy和Pandas数据库,用Pandas的read_csv函数读取原始数据集’e_commerce.csv’,使其转换成DataFrame格式,并赋值给变量df。 展示数据集的前5行和后5行。 # 二、评估数据(整洁度、干净度) 创建一个新的变量clean 阅读全文
posted @ 2024-06-27 20:37 abloger 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 创建原始数据 pd.set_option('display.unicode.east_asian_width', True) # 解决数据输出时列名对不齐的问题 # 第a56爆大奖在线娱乐方法:字典套字典 data = {"001": {"姓名": "小陈", "考试1": 85, "考试2": 95, "考试3" 阅读全文
posted @ 2024-06-26 11:27 abloger 阅读(1) 评论(0) 推荐(0) 编辑
摘要: zip # 相当于是拉链,将两个列表对应位置的数据拉到一起,变成元组,最后返回一个迭代器。用list将迭代器转换为列表即可看到内容 # 如果列表数据长度不对等,就以短的为主,剩下的不管了 list1 = [1, 2, 3] list2 = ['a', 'b', 'c', 'd'] z = zip(l 阅读全文
posted @ 2024-06-20 16:31 abloger 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 进程和线程 进程就相当于各个部门,线程就相当于各个部门里的干事员们 """ 进程中至少有一条线程,线程和进程的开启非常类似,这里就展示线程 """ from threading import Thread from multiprocessing import Process # 第a56爆大奖在线娱乐开启的方法就 阅读全文
posted @ 2024-06-13 16:44 abloger 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 防盗链referer: a56爆大奖在线娱乐反爬方式。一些网站在响应之前会先溯源,检查请求的网址X,是从哪个链接进入的(即上一级网址是谁),比如:通过网址A >进入网址X,那么上一级就是A。如果发现上一级网址不存在,或者错误,则认为是其他歪门邪道来的,就不给你数据。这个就是防盗链referer。 # 防盗链的信息查 阅读全文
posted @ 2024-06-12 13:11 abloger 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 很多网页要求登录后,才能查看对应的信息,整个流程是: 客户端 服务器 玩家登录 返回cookie 获得cookie后继续访问其他页面 根据cookie查验身份,返回对应内容 session会话,理解为可以连续请求,先提交data换来cookie,然后可以带着cookie继续访问。比如此时想访问一个需 阅读全文
posted @ 2024-06-12 10:48 abloger 阅读(1) 评论(0) 推荐(0) 编辑
摘要: lxml 库是用来解析XML和HTML网页内容的 Xpath 库则是用来查询数据(XPath表达式是a56爆大奖在线娱乐在XML文档中查找信息的语言,它同样适用于HTML文档) 注意xpath中索引是从1开始而不是0 简单示例: # 先pip install lxml import requests from lx 阅读全文
posted @ 2024-06-11 17:04 abloger 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 爬虫的步骤可以简单的概括为: 获取网页并拿到HttpResponse对象,一般都是urllib库或者requests库 # 设置要爬取的网页,以及headers伪装浏览器(最基本防反扒手段) url = 'https://example.com' headers = { "User-Agent":" 阅读全文
posted @ 2024-06-05 18:31 abloger 阅读(11) 评论(0) 推荐(0) 编辑
摘要: SSL证书是 方法一:暴力 verify = False response = requests.get('https://example.com', verify=False) # 强烈建议不要在生产环境中使用 verify=False, # 因为它会使你的请求容易受到中间人攻击(Man-in-t 阅读全文
posted @ 2024-06-05 17:56 abloger 阅读(26) 评论(0) 推荐(0) 编辑