python抽取指定url页面的title方法-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

python抽取指定url页面的title方法

阅读量：4920 次

发布时间：2019-06-11

本文共 1586 字，大约阅读时间需要 5 分钟。

今天简单使用了一下python的re模块和lxml模块，分别利用的它们提供的正则表达式和xpath来解析页面源码从中提取所需的title，xpath在完成这样的小任务上效率非常好，在这里之所以又使用了一下正则表达式是因为xpath在处理一些特殊的页面的时候会出现乱码的情况，当然这不是xpath的原因，而是页面本身编码，跟utf-8转码之间有冲突所致，

这里看代码：

# !/usr/bin/python

#-*-coding:utf-8-*-

'''

功能：抽取指定url的页面内容中的title

'''

import re

import chardet

import urllib

from lxml import etree

def utf8_transfer(strs):

'''

utf8编码转换

'''

try:

if isinstance(strs, unicode):

strs = strs.encode('utf-8')

elif chardet.detect(strs)['encoding'] == 'GB2312':

strs = strs.decode("gb2312", 'ignore').encode('utf-8')

elif chardet.detect(strs)['encoding'] == 'utf-8':

strs = strs.decode('utf-8', 'ignore').encode('utf-8')

except Exception, e:

print 'utf8_transfer error', strs, e

return strs

def get_title_xpath(Html):

'''

用xpath抽取网页Title

'''

Html = utf8_transfer(Html)

Html_encoding = chardet.detect(Html)['encoding']

page = etree.HTML(Html, parser=etree.HTMLParser(encoding=Html_encoding))

title = page.xpath('/html/head/title/text()')

try:

title = title[0].strip()

except IndexError:

print 'Nothing'

print title

def get_title(Html):

'''

用re抽取网页Title

'''

Html = utf8_transfer(Html)

compile_rule = ur''

title_list = re.findall(compile_rule, Html)

if title_list == []:

title = ''

else:

title = title_list[0][7:-8]

print title

if __name__ == '__main__':

url = 'http://www.baidu.com'

html = urllib.urlopen(url).read()

new_html = utf8_transfer(html)

try:

get_title_xpath(new_html)

get_title(new_html)

except Exception, e:

print e

下面是结果：

百度一下，你就知道

百度一下，你就知道

简单的小实践，继续学习，欢迎交流。

以上这篇python抽取指定url页面的title方法就是小编分享给大家的全部内容了，希望能给大家一个参考

转载于:https://www.cnblogs.com/amengduo/p/9586336.html

你可能感兴趣的文章

二级指针详解

jquery的offset().top与javascript的offsetTop区别？

js中事件处理程序的内存优化

SQL基础常用语法

八大排序算法总结与java实现

求职面试的时候如何谈薪酬待遇

某idol的人气调查

爬虫大作业

androidkiller连接模拟器并修改源码调试

java高并发核心要点|系列2|锁的底层实现原理

Chunk.entrypoints: Use Chunks.groupsIterable and filter by instanceof Entrypoint instead

文本处理方法概述

剑指前端（前端入门笔记系列）——Math对象

spark学习之IDEA配置spark并wordcount提交集群

flask seesion组件

gprof—使用记录之自以为是优化

Table被web编程弃用的原因

Spring之<context:property-placeholder location="classpath:... "/>标签路径问题

Windows API 之 FineFirstFile、FindNextFile

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-11-05 21:51:04 当前IP: 3.142.210.226 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我