2 月 | 2011 | jtalk - 佳钊杂谈

网站PV流量统计工具的实现

2011-02-24 • 技术 • 0 条评论 • jiacheo •3,188 阅读

一, 概述

像CNZZ那样提供一段js代码然后帮助站长们统计网页的PV流量是如何实现的呢? 这里浅谈了一下实现方法, 其实很多网站内部的PV统计也是如此的, 只不过需要记录的数据比较多而已.

二, 需求

实现一个网站访问量统计工具, 能够得到被访问页面的URL, 被访问页面的前导URL, 以及访客所在地理位置.

三, 设计

分为两部分, 一是前端, 一是后端.

Hive环境搭建与入门

2011-02-18 • 技术 • 2 条评论 • jiacheo •11,760 阅读

一、概述
hive是一个基于hadoop的数据仓库基础设施, 提供数据的提取转换加载和查询, 不适于少数据量(比如几亿)的数据查询, 也不适于实时或者在线数据的查询, 是一个非实时的, 离线的数据查询工具. hive没有自己的文件格式, 只需要普通的文件格式或者用户自定义的格式就可以了.

二、环境搭建

hive不需要神马集群配置, 只是需要编译一个环境就好了, 编译的过程, 国人表示很蛋疼, 因为他的ant脚本中, 使用的镜像居然是facebook的, 翻墙了都没用表示很纠结. 所以需要把facebook的镜像改为可用的(最好是国内的, 诸如人人网, 北京交通大学等等镜像), 镜像的选择可以根据个人喜好和地理位置自由选取, 当然是不能被GFW墙了的.(参考http://www.apache.org/dyn/closer.cgi/hadoop/core/)
1. 下载源代码: svn co http://svn.apache.org/repos/asf/hive/trunk hive

jtalk – 佳钊杂谈

月度归档：2011年2月

网站PV流量统计工具的实现

Hive环境搭建与入门