应用 perl 从internet 获取结构化数据

映平 聂
闪电演讲
语言: 中文
标签: epg etl

您能在演讲者的网站找到更多资料:


不是很成熟,见笑
互联网上很多的结构化信息,这些信息都是通过查询系统+后台数据库方式提供给web 用户,搜索对这类动态网页无能为力
提纲
ETL(Extract,Transform,Load)介绍
ETL 用到的perl module
ETL 用到的技术
perl ETL 过程
post/get 提交一个请求,返回记录列表
分析记录列表,依次获得细节记录
分析细节记录,抽取字段
创建文本记录或提交到数据库
示例
获取专利数据库 http://blog.chinaunix.net/u1/51527/showart_2016930.html
获取EPG 数据 http://blog.chinaunix.net/u1/51527/showart_2016932.html


参加人: Lars Dɪᴇᴄᴋᴏᴡ (‎daxim‎),