}
«网站首页

李梦蛟

关注此人
把李梦蛟加为好友
附言:



最新动态
  • 李梦蛟 发表博客:hadoop1.0.0正式版发布了 2012-01-17 17:06
    27 December, 2011: release 1.0.0 availableAfter six years of gestation, Hadoop reaches 1.0.0! This r...
  • 当数据驱动在公司成为一种认识的时候,其实把大家召集起来开会什么的,还是比较容易的,因为他们很多时候要数据,有求于你。
  • @tippoint
    通常来说,让用户部门来参与开发做报表确实很难,但是这里有个前提是,报表太多,BI部门开发不过来,用户等不及的时候,他们很想快速解决,这种情况下,去培训他们,他们就很乐意接受了,这里我们也只是说的让他们做简单的报表而已。
  • 李梦蛟 评论博客:我的幸福呢 2011-10-26 17:02
    可以看下哈佛公开课之-幸福课
  • 以前我是从4.1企业版里面提取的,你去kettle的根目录下的/libext/JDBC下面去检查下有没有hive的jdbc驱动
  • @bnuyangzhen
    在企业版的kettle里面是有hive组件的,貌似最新版的社区版kettle也有了吧,我是根据企业版里面的反编译了一下,自己组织了一下代码,就能用了。
    位置是在table input组件选择hive的连接就可以了。如果你做不到,还有一种简单的方法可以从hive获取数据,通过运行hive命令把查询的数据重定向到文件系统,然后从文件系统读取文本的方式读到kettle里面来
  • hadoop0.20.2以及以前的版本都没有append 和 sync的特性,根据字面意思理解,应该是写入数据不能追加,对我的影响是hbase一直不能使用hadoop的官方发布版,因为它不支持appe...
  • 根据最近几年对BI的了解,以及同行的一些感叹,发现其实目前中国的BI推广还处在初级阶段,绝大部分公司还是按照传统的软件开发方式来实施的BI项目。即收集用户需求,按用户需求开发报表,那样的话BI项目就成...
  • 根据我最新的了解,这篇文章的思路其实是行不太通的哈,因为hbase中的row如果很大的话,性能会变得非常低下
  • kettle
  • @bnuyangzhen
    我这里可以连上,建议从以下几个方面查原因:1.文件路径大小写;2.hadoop版本和kettle中hadoop的jar的版本是否匹配;
    3.是否存在网络限制问题(在ETL的机器上用浏览器能够访问hdfs中的文件吗)
  • 李梦蛟 发表博客:使用hbase的Bulk Load 2011-08-17 15:57
    1.首先配置$HADOOP_HOME下的conf/hadoop-env.sh文件,修改其中的HADOOP_CLASSPATH为如下export HADOOP_CLASSPATH=$HADOOP_CLA...
  • 刚使用kettle不久,由于我们在kettle程序中使用了hive的驱动,因此在kitchen.sh中增加了hive驱动的一行classpath。写的脚本使用kitchen执行我们的job没有任何问题...
  • 李梦蛟 发表博客:使用Ganglia对hadoop进行监控 2011-08-11 15:15
    Ganglia是一个监控服务器,集群的开源软件,能够用曲线图表现最近一个小时,最近一天,最近一周,最近一月,最近一年的服务器或者集群的cpu负载,内存,网络,硬盘等指标。Ganglia的强大在于:ga...
  • 最近在一直在研究hadoop的使用,主要是集中在数据仓库的应用这块。今天突然和一个业内的朋友聊起大型电子商务网站CRM系统建设的技术问题。CRM系统最基本的功能就是查询某个用户在我们网站进行的所有的操...
  • 李梦蛟 发表博客:hive 0.7.0 发布了 2011-04-02 16:18
    今天去关注了一下hadoop的官网,发现hive0.7.0发布了;其中有两个新特性非常有用,一个是可以创建索引了,另外一个是可以实现用户安全认证了。
  • 李梦蛟 发表博客:招聘有经验的数据分析师 2011-01-21 15:07
    公司:金华利诚信息技术有限公司(5173.com)职位名称:数据分析师工作地点:浙江金华工作职责:1.负责网站的日志、用户行为、交易数据等网站流量和商业指标分析,为公司提供数据分析报告及建议。2.制定...
  • 最近在优化公司的数据仓库项目中ETL部分,发现有一处明显可以改进的地方,发出来和大家分享一下。在数据仓库中一个一个超级大维度表(1亿左右的记录),更新这个维度表的时候,采取的策略是最简单的1类渐变维度...
  • 李梦蛟 发表博客:推荐一个开源的web 分析工具 2010-09-03 14:50
    给大家推荐一款不错的开源web分析工具piwik。它的官网地址是http://www.piwik.org它的在线演示地址是http://demo.piwik.org/最近由于工作需要评估了一些web分...
  • 李梦蛟 发表博客:Cognos8的eclipse调试环境搭建 2010-09-02 15:12
    我们有时候需要针对cognos做一些二次开发,开发过程那么就当然需要调试,我本人不是做java的程序员,所以摸索出cognos的调试还是费了些时间,以下我准备把我的经验和刚做cognos二次开发的朋友...
  • 李梦蛟:开源web analytic 工具piwik研究 2010-08-30 15:41 回应
  • 李梦蛟 发表博客:Cognos8与自定义门户的集成 2010-08-30 15:37
    在网上有看到过Websphere Portal 6.0和cognos8集成的文章,但是没有看到自己开发的门户和cognos的集成,这两者还是有较大的区别的。我们公司的BI就是采用的自己开发BI门户集成...
  • 性能1.一家企业把一个较大的财务、培训和实现责任都托付给一个软件产品。但是这个软件产品目前的性能出现了问题,几乎不能运转了。面对这种局面,这家企业应该做些什么呢?2.一家企业的数据仓库中数据量的增长比...
  • 数据仓库架构1.企业的数据仓库已经从50GB增长到了1TB。它最初仅有50个用户,而现在已增长到300个用户。系统的响应慢得吓人,用户怨声载道,DBA在数据仓库的扩展和性能方面遇到的极大的困难。所有的...
  • 数据整合1.一家拥有650个经销商的汽车制造公司,有3个独立的经销管理系统,这650个经销商都有自己的数据库。这家企业应该如何来收集、清理并整合这些数据呢?2.一家企业为了保证企业内数据的一致性,委任...
  • 数据质量1.一个数据质量分析师正在试图分析一个数据仓库之中数据的质量状况。这个数据仓库的数据量非常的大,数据质量分析师准备用抽样的方式进行分析。但是他不知道需要抽样多少数据,如何抽样,以及如何向用户解...
  • 安全1.一个企业建立了一个数据仓库系统,用来分析企业的部门及产品相关盈利能力。数据仓库实现不久,项目经理被CFO叫到办公室,被要求解释为什么一位职位低下的金融分析师能够在数据仓库中查看详细的工资记录,...
  • 工具与供应商1.一个非盈利性企业正准备建立一个数据仓库,来跟踪他们全体成员的活动。这样一个大的项目需要一个需求建议书,其中会有筛选供应商的资料等内容。但是,企业的高级管理人员不希望这个需求建议书影响他...
  • 数据仓库标准1.一家企业要建设一个数据仓库,但是这家企业的工作人员没有数据仓库的使用经验,对数据仓库建设方法学也一无所知。数据仓库项目经理应该如何做,才能让用户相信在一个数据仓库项目中使用一种方法学是...
  • 项目规划与进度安排1.企业高管层不了解数据仓库项目为什么会花费那么多的时间。他们认为目前的计划和工作量经过了夸张,所以他们要求能有更具体化的依据来支持评估的工作量。项目经理应该如何应付这种情况。2.I...
Top