neverlish · neverlish · Feb 9, 2017 · Feb 9, 2017 · Feb 9, 2017 · Feb 10, 2017
diff --git a/node/jpub-web-crawling-technique/02/.gitignore b/node/jpub-web-crawling-technique/02/.gitignore
@@ -0,0 +1,5 @@
+node_modules/
+*/*.html
+*/img/
+*/nodejs.org/
+*/*.txt
diff --git a/node/jpub-web-crawling-technique/02/01-download/01-download-node.js b/node/jpub-web-crawling-technique/02/01-download/01-download-node.js
@@ -0,0 +1,22 @@
+// url에 있는 파일을 savepath에 다운로드한다
+
+// 다운로드할 url을 지정
+var url = 'http://jpub.tistory.com/';
+// 저장할 위치를 지정
+var savepath = 'test.html';
+
+// 사용 모듈 정의
+var http = require('http'); // HTTP 모듈
+var fs = require('fs'); // 파일 처리 관련 모듈
+
+// 출력 지정
+var outfile = fs.createWriteStream(savepath);
+
+// 비동기로 url의 파일 다운로드
+http.get(url, function(res) {
+  res.pipe(outfile);
+  res.on('end', function() {
+    outfile.close();
+    console.log('ok');
+  })
+})
diff --git a/node/jpub-web-crawling-technique/02/01-download/02-download-node-func.js b/node/jpub-web-crawling-technique/02/01-download/02-download-node-func.js
@@ -0,0 +1,27 @@
+// 다운로드
+download (
+  'http://jpub.tistory.com/539',
+  'spring.html',
+  function() { console.log('ok, spring') }
+)
+
+download (
+  'http://jpub.tistory.com/537',
+  'angular.html',
+  function() { console.log('ok, angular') }
+)
+
+// url의 파일을 savepath에 다운로드하는 함수
+function download(url, savepath, callback) {
+  var http = require('http');
+  var fs = require('fs');
+  var outfile = fs.createWriteStream(savepath);
+
+  var req = http.get(url, function(res) {
+    res.pipe(outfile);
+    res.on('end', function() {
+      outfile.close();
+      callback();
+    })
+  })
+}
diff --git a/node/jpub-web-crawling-technique/02/02-analyze/01-getPage.js b/node/jpub-web-crawling-technique/02/02-analyze/01-getPage.js
@@ -0,0 +1,15 @@
+// 모듈 로드
+var client = require('cheerio-httpcli');
+
+// 다운로드
+var url = 'http://jpub.tistory.com';
+var param = {};
+
+client.fetch(url, param, function(err, $, res) {
+  // 에러 체크
+  if (err) { console.log('Error:', err); return; }
+
+  // 다운로드한 결과를 화면에 출력
+  var body = $.html();
+  console.log(body);
+})
diff --git a/node/jpub-web-crawling-technique/02/02-analyze/02-showlink.js b/node/jpub-web-crawling-technique/02/02-analyze/02-showlink.js
@@ -0,0 +1,16 @@
+// 모듈 로드
+var client = require('cheerio-httpcli');
+
+// 다운로드
+var url = 'http://jpub.tistory.com';
+var param = {};
+client.fetch(url, param, function(err, $, res) {
+  if (err) { console.log('error'); return; }
+
+  // 링크를 추출하여 표시
+  $('a').each(function(idx) {
+    var text = $(this).text();
+    var href = $(this).attr('href');
+    console.log(text + ' : ' + href);
+  })
+})
diff --git a/node/jpub-web-crawling-technique/02/02-analyze/03-url-test.js b/node/jpub-web-crawling-technique/02/02-analyze/03-url-test.js
@@ -0,0 +1,14 @@
+// url 모듈 로드
+var urlType = require('url');
+
+// 상대 경로를 절대 경로로 변환
+var base = 'http://kujirahand.com/url/test/index.html';
+
+var u1 = urlType.resolve(base, 'a.html');
+console.log('u1 = ' + u1);
+
+var u2 = urlType.resolve(base, '../b.html');
+console.log('u2 = ' + u2);
+
+var u3 = urlType.resolve(base, '/c.html');
+console.log('u3 = ' + u3);
diff --git a/node/jpub-web-crawling-technique/02/02-analyze/04-showlink-path.js b/node/jpub-web-crawling-technique/02/02-analyze/04-showlink-path.js
@@ -0,0 +1,27 @@
+// 모듈 로드
+var client = require('cheerio-httpcli');
+var urlType = require('url');
+
+// URL과 파라미터
+var url = 'http://jpub.tistory.com';
+var param = {};
+
+// 다운로드
+client.fetch(url, param, function(err, $, res) {
+  if (err) { console.log('error'); return; }
+
+  // 링크 추출하여 출력
+  $('a').each(function(idx) {
+    var text = $(this).text();
+    var href = $(this).attr('href');
+
+    if (!href) return;
+
+    // 상대 경로를 절대 경로로 변환
+    var href2 = urlType.resolve(url, href);
+
+    // 결과를 표시
+    console.log(text + ' : ' + href);
+    console.log(' => ' + href2 + '\n');
+  })
+})
diff --git a/node/jpub-web-crawling-technique/02/02-analyze/05-showimage.js b/node/jpub-web-crawling-technique/02/02-analyze/05-showimage.js
@@ -0,0 +1,18 @@
+// 모듈 로드
+var client = require('cheerio-httpcli');
+var urlType = require('url');
+
+// 다운로드
+var url = 'https://ko.wikipedia.org/wiki/' + encodeURIComponent('강아지');
+var param = {};
+
+client.fetch(url, param, function(err, $, res) {
+  if (err) { console.log('error'); return; }
+
+  // 링크를 추출하여 표시
+  $('img').each(function(idx) {
+    var src = $(this).attr('src');
+    src = urlType.resolve(url, src);
+    console.log(src);
+  })
+})
diff --git a/node/jpub-web-crawling-technique/02/02-analyze/06-download-node-request.js b/node/jpub-web-crawling-technique/02/02-analyze/06-download-node-request.js
@@ -0,0 +1,10 @@
+// 모듈 로드
+var request = require('request');
+var fs = require('fs');
+
+// URL 저장
+var url = 'http://jpub.tistory.com/';
+var savepath = 'test.html';
+
+// 다운로드
+request(url).pipe(fs.createWriteStream(savepath));
diff --git a/node/jpub-web-crawling-technique/02/02-analyze/07-dl-image.js b/node/jpub-web-crawling-technique/02/02-analyze/07-dl-image.js
@@ -0,0 +1,35 @@
+// 모듈 로드
+var client = require('cheerio-httpcli');
+var request = require('request');
+var fs = require('fs');
+var urlType = require('url');
+
+// 저장할 디렉터리가 없으면 생성
+var savedir = __dirname + '/img';
+if (!fs.existsSync(savedir)) {
+  fs.mkdirSync(savedir);
+}
+
+// URL 지정
+var url = 'https://ko.wikipedia.org/wiki/' + encodeURIComponent('강아지');
+var param = {};
+
+// HTML 파일 획득
+client.fetch(url, param, function(err, $, res) {
+  if (err) { conosole.log('error'); return; }
+
+  // img 링크 추출하여 각 링크에 대해 함수 수행
+  $('img').each(function(idx) {
+    var src = $(this).attr('src');
+
+    // 상대 경로를 절대 경로로 변환
+    src = urlType.resolve(url, src);
+
+    // 저장 파일 이름 결정
+    var fname = urlType.parse(src).pathname;
+    fname = savedir + '/' + fname.replace(/[^a-zA-Z0-9\.]+/g, '_');
+
+    // 다운로드
+    request(src).pipe(fs.createWriteStream(fname));
+  })
+})
diff --git a/node/jpub-web-crawling-technique/02/03-getall/01-getall.js b/node/jpub-web-crawling-technique/02/03-getall/01-getall.js
@@ -0,0 +1,76 @@
+// 링크를 분석해서 다운로드(Node.js)
+// --- 모듈 로드 ---
+var client = require('cheerio-httpcli');
+var request = require('request');
+var urlType = require('url');
+var fs = require('fs');
+var path = require('path');
+
+// --- 공통 설정 ---
+// 링크 탐색 단계 지정
+var LINK_LEVEL = 3;
+// 기준 URL 페이지
+var TARGET_URL = 'https://nodejs.org/dist/latest-v6.x/docs/api/';
+var list = {};
+
+// 메인 처리
+downloadRec(TARGET_URL, 0);
+
+// 지정 URL을 최대 level 단계까지 다운로드
+function downloadRec(url, level) {
+  // 최대 level 확인
+  if (level >= LINK_LEVEL) return;
+
+  // 이미 다운받은 사이트는 무시
+  if (list[url]) return;
+  list[url] = true;
+
+  // 외부 페이지는 무시
+  var us = TARGET_URL.split('/');
+  us.pop();
+  var base = us.join('/');
+  if (url.indexOf(base) < 0) return;
+
+  // HTML을 취득
+  client.fetch(url, {}, function(err, $, res) {
+    // 링크된 페이지를 취득
+    $('a').each(function(idx) {
+      // <a> 태그의 링크를 획득
+      var href = $(this).attr('href');
+      if (!href) return;
+
+      // 상대 경로를 절대 경로로 반환
+      href = urlType.resolve(url, href);
+
+      // '#' 이후를 무시(a.html#aa와 a.html#bb는 같다)
+      href = href.replace(/\#.+$/, ''); // 말미의 #를 제거
+      downloadRec(href, level + 1);
+    });
+
+    // 페이지 저장
+    if (url.substr(url.length-1, 1) == '/') {
+      url += 'index.html'; // 인덱스 자동 추가
+    }
+
+    var savepath = url.split('/').slice(2).join('/');
+    checkSaveDir(savepath);
+    console.log(savepath);
+    fs.writeFileSync(savepath, $.html());
+  });
+}
+
+// 저장할 디렉터리 존재 유무 확인
+function checkSaveDir(fname) {
+  // 디렉터리 부분만 검출
+  var dir = path.dirname(fname);
+
+  // 디렉터리를 재귀적으로 생성
+  var dirlist = dir.split('/');
+  var p = '';
+  for (var i in dirlist) {
+    p += dirlist[i] + '/';
+    if (!fs.existsSync(p)) {
+      fs.mkdirSync(p);
+    }
+  }
+}
diff --git a/node/jpub-web-crawling-technique/02/03-getall/02-mkdir.js b/node/jpub-web-crawling-technique/02/03-getall/02-mkdir.js
@@ -0,0 +1,9 @@
+// 모듈 로드
+var fs = require('fs');
+
+// 폴더 생성
+console.log('mkdir 실행');
+fs.mkdir('test', function() {
+  console.log('폴더 생성 완료');
+});
+console.log('mkdir 실횅 완료. 결과 대기');
diff --git a/node/jpub-web-crawling-technique/02/03-getall/03-mkdirSync.js b/node/jpub-web-crawling-technique/02/03-getall/03-mkdirSync.js
@@ -0,0 +1,7 @@
+// 모듈 로드
+var fs = require('fs');
+
+// 디렉터리를 동기적으로 생성
+console.log('mkdir 실행');
+fs.mkdirSync('test-sync');
+console.log('mkdir 완료');
diff --git a/node/jpub-web-crawling-technique/02/03-getall/04-mkdir.js b/node/jpub-web-crawling-technique/02/03-getall/04-mkdir.js
@@ -0,0 +1,10 @@
+// 모듈 로드
+var fs = require('fs');
+
+// 폴더를 동기적으로 생성
+if (!fs.existsSync('test3')) {
+  fs.mkdirSync('test3');
+  console.log('test3 생성완료');
+} else {
+  console.log('test3이 이미 있으므로 생성 안함');
+}
diff --git a/node/jpub-web-crawling-technique/02/04-xmlrss/01-test-xml.js b/node/jpub-web-crawling-technique/02/04-xmlrss/01-test-xml.js
@@ -0,0 +1,14 @@
+// 모듈 로드
+var parseString = require('xml2js').parseString;
+
+// 테스트용 XML 데이터
+var xml = '<fruits shop="AAA">' +
+  '<item price="140">Banana</item>' + 
+  '<item price="200">Apple</item>' + 
+  '</fruits>';
+
+// XML 전달
+parseString(xml, function(err, result) {
+  // 파싱된 결과에 대한 처리를 여기에 작성
+  console.log(JSON.stringify(result));
+})
diff --git a/node/jpub-web-crawling-technique/02/04-xmlrss/02-test-xml2.js b/node/jpub-web-crawling-technique/02/04-xmlrss/02-test-xml2.js
@@ -0,0 +1,25 @@
+// 모듈 로드
+var parseString = require('xml2js').parseString;
+
+// 테스트용 XML 데이터
+var xml = '<fruits shop="AAA">' + 
+  '<item price="140">Banana</item>' + 
+  '<item price="200">Apple</item>' + 
+  '</fruits>';
+
+// XML을 전달
+parseString(xml, function(err, result) {
+  // console.log(JSON.stringify(result));
+
+  // fruits을 제공하는 가게 이름
+  var shop = result.fruits.$.shop;
+  console.log('shop = ' + shop);
+
+  // fruits의 이름과 가격을 표시
+  var items = result.fruits.item;
+  for (var i in items) {
+    var item = items[i];
+    console.log('-- name = ' + item._);
+    console.log('   price = ' + item.$.price);
+  }
+});
diff --git a/node/jpub-web-crawling-technique/02/04-xmlrss/03-test-xml0.js b/node/jpub-web-crawling-technique/02/04-xmlrss/03-test-xml0.js
@@ -0,0 +1,10 @@
+// 모듈 로드
+var parseString = require('xml2js').parseString;
+
+// 테스트용 데이터
+var xml = '<item>Banana</item>';
+
+// XML을 전달
+parseString(xml, function(err, result) {
+  console.log(result.item); // 결과: Banana
+})
diff --git a/node/jpub-web-crawling-technique/02/04-xmlrss/04-test-xml3.js b/node/jpub-web-crawling-technique/02/04-xmlrss/04-test-xml3.js
@@ -0,0 +1,20 @@
+// 모듈 로드
+var parseString = require('xml2js').parseString;
+
+// 테스트용 XML 데이터
+var xml = 
+  '<items>' + 
+  '<item><name>Banana</name><price>130</price></item>' + 
+  '<item><name>Apple</name><price>300</price></item>' + 
+  '<item><name>Pear</name><price>250</price></item>' + 
+  '</items>';
+
+// XML 전달
+parseString(xml, function(err, result) {
+  console.log(JSON.stringify(result));
+
+  // 각 요소의 표시
+  console.log('---');
+  console.log(result.items.item[0].name[0]);
+  console.log(result.items.item[0].price[0]);
+})
diff --git a/node/jpub-web-crawling-technique/02/04-xmlrss/05-test-xml-builder.js b/node/jpub-web-crawling-technique/02/04-xmlrss/05-test-xml-builder.js
@@ -0,0 +1,12 @@
+// 모듈 로드
+var xml2js = require('xml2js');
+
+// 자바스크립트 객체
+var obj = {
+  item: {name: 'Banana', price: 150}
+};
+
+// XML로 변환
+var builder = new xml2js.Builder();
+var xml = builder.buildObject(obj);
+console.log(xml);