# sudo apt-get purge 'cloudera-manager-*' avro-tools crunch flume-ng hadoop-hdfs-fuse hadoop-hdfs-nfs3 hadoop-httpfs hadoop-kms hbase-solr hive-hbase hive-webhcat hue-beeswax hue-hbase hue-impala hue-pig hue-plugins hue-rdbms hue-search hue-spark hue-sqoop hue-zookeeper impala impala-shell kite llama mahout oozie pig pig-udf-datafu search sentry solr-mapreduce spark-core spark-master spark-worker spark-history-server spark-python sqoop sqoop2 whirr hue-common oozie-client solr solr-doc sqoop2-client zookeeper

#sudo rm -rf /opt/cloudera/parcels/*

後は手順とおり再インストールすればOK

2016-05-25

Spark sql で array_to_stringを自作する

仕事

やり方意外と簡単でした。

参考したページは

Using SparkSQL UDFs to Create Date Times in Spark 1.5

scala> import org.apache.spark.sql.functions.udf

scala> def arrayToString(array:Seq[String],separator:String) = array.mkString(separator)

scala> sqlContext.udf.register("array_to_string", arrayToString(_:Seq[String],_:String))

scala> sqlContext.sql("select array_to_string(array('aaa','bbb'),'@') x").collect.foreach(println)
[aaa@bbb]

ちゃんと動いた

2016-05-24

ubuntu で kvmを構築する手順

仕事

必要なツールをinstall

$ sudo aptitude install qemu-kvm libvirt-bin ubuntu-vm-builder bridge-utils virtinst

isoファイルをダウンロード

$ wget http://releases.ubuntu.com/14.04/ubuntu-14.04.4-server-i386.iso

vmからもネットワーク接続できるようにブリッジを作成する

/etc/network/interfacesを以下のように編集する

auto lo
iface lo inet loopback

# The primary network interface
auto eth0
iface eth0 inet dhcp

iface br0 inet dhcp
bridge_ports eth0
bridge_stp off
auto br0

そしてネットワーク再起動

$ sudo ifdown eth0 && sudo ifup eth0

ブリッジ確認

$ brctl show

bridge name bridge id STP enabled interfaces
br0 8000.a0b3cce24d2c no eth0
vnet0

vmを作成する

$ sudo virt-install --name vm01 --ram 2048 --disk path=/var/lib/libvirt/images/vm01.img,size=30 --vcpus 1 --os-type linux --os-variant ubuntutrusty --network bridge=br0 --noautoconsole -c ubuntu-14.04.4-server-i386.iso --graphics vnc,port=5901,keymap='ja',listen=0.0.0.0,password=vnc

$ virsh list --all

Id Name State
----------------------------------------------------
2 vm01 running

上記でStateがshutdownになっていれば、以下のコマンドで起動する

$ virsh start vm01

そして、UltraVNCViewerでvm01に接続する

接続時指定するアドレスは「ホストOSのIP:ポートID」

パスワードは上で設定した'vnc'を入力

ポートIDは以下のコマンドで確認

$virsh vncdisplay vm01