应用 perl 从internet 获取结构化数据

By 映平 聂
Lightning talk
Language: 中文
Tags: epg etl

You can find more information on the speaker's site:


不是很成熟,见笑
互联网上很多的结构化信息,这些信息都是通过查询系统+后台数据库方式提供给web 用户,搜索对这类动态网页无能为力
提纲
ETL(Extract,Transform,Load)介绍
ETL 用到的perl module
ETL 用到的技术
perl ETL 过程
post/get 提交一个请求,返回记录列表
分析记录列表,依次获得细节记录
分析细节记录,抽取字段
创建文本记录或提交到数据库
示例
获取专利数据库 http://blog.chinaunix.net/u1/51527/showart_2016930.html
获取EPG 数据 http://blog.chinaunix.net/u1/51527/showart_2016932.html


Attended by: Lars Dɪᴇᴄᴋᴏᴡ (‎daxim‎),