cluster

C++ implementation of the clustering algorithm 聚类算法的c++实现

一. 介绍

1. 目标

一个速度更快,内存占用更小,使用更简单的聚类算法实现.大体上分为三个大块,每个算法的单机在线实现,这种也是大家最常见和常用的版本,支持的数据量不超过内存大小;另一块是单机改进版,单机的离线实现,将会支持原数据超过内存,但不超过本机磁盘大小的数据量;第三块是分布式集群的实现,将实现分布式聚类算法,以支持更大的数据量. P.S. 认为每条数据的每个维是一个double,所以,大约11,585*11,585的数据量为1GB内存,可以以此作为参考决定实际使用时需要的版本.

2. 设计

本程序采用的不是基于面向对象的开发,而是采用的模块式开发.可以看到模块按照namespace划分,各自按功能隔离.

3. 进度

算法	单机在线	单机离线	分布式
k-means	100%	0%	0%
二分k-means	100%	0%	0%

因为本项目是业余时间开发,所以进度并不会很快,代码质量也难以保证,所以建议,暂时请勿用于商业或正式环境.

二. 使用介绍

k-mean初始版本可以使用,目前还处于开发阶段,如果想马上使用的话,请结合实际代码和注释来使用. 使用cmake编译:

1. 进入包含CMakeLists.txt文件的目录,终端输入`cmake .`命令;(如果没有安装cmake请先安装cmake)
2. 然后输入`make`,编译成功后该目录下会出现一个cluster的二进制文件,就可以运行看看效果了.

三. FAQ

1. 为什么采用c++,会有其他语言实现吗?

采用c++的原因有三点:1.其他语言基本都有大量聚类算法的实现,相比较c++的版本更少;2.c++语言的特性能一定程度地支持前面提到的目标;3.其他语言如python和js都能很容易地嵌入c++代码,可以方便地作为其他语言的服务提供者.暂时不会采用其他语言的实现.

2. 怎么使用?

目前处于开发阶段,所以请等到发布release版本时再使用.如果想马上使用,可以参考examples/example.cpp及其注释.

3. 我能参与吗?

回答是,当然可以.可以发送邮件到roliygu@gmail.com或者github提供的其他方式联系我.

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
cluster		cluster
data		data
examples		examples
matrix		matrix
utils		utils
.gitignore		.gitignore
CMakeLists.txt		CMakeLists.txt
LICENSE		LICENSE
README.md		README.md
cluster_old.cpp		cluster_old.cpp
cluster_old.h		cluster_old.h
main.cpp		main.cpp
test		test

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

cluster

一. 介绍

1. 目标

2. 设计

3. 进度

二. 使用介绍

三. FAQ

1. 为什么采用c++,会有其他语言实现吗?

2. 怎么使用?

3. 我能参与吗?

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

License

roliygu/cluster

Folders and files

Latest commit

History

Repository files navigation

cluster

一. 介绍

1. 目标

2. 设计

3. 进度

二. 使用介绍

三. FAQ

1. 为什么采用c++,会有其他语言实现吗?

2. 怎么使用?

3. 我能参与吗?

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages