크롤링 프로젝트 1 1. 스크레핑 - 웹 사이트에 있는 특정 정보를 추출하는 기술 2. 크롤링 - 프로그램이 웹 사이트를 정기적으로 돌며 정보를 추출하는 기술 -------------------------------------------------------------------------------------- 스크레핑 과정 1. 대상 URL 할당 (URL 지정) 2. 웹 문서 추출 : (R) htmlParser() 3. 특정 태그의 Data 추출 : XPathSApply() 4. Data 정제 (불필요한 특수문자, 공백문자 제거) : Gsub('\n', ' ', name) #name에서 '\n' 문자를 제거한다. 5. Data 프레임화 : data.frame() 6. Data 정렬 : Format()..
파이썬의 직관적인 특징을 가장 잘 보여 주는 것이 바로 for 문입니다. while 문과 비슷한 반복문인 for 문은 문장 구조가 한눈에 들어온다는 장점이 있습니다. for 문의 기본 구조 for 문의 기본 구조는 다음과 같습니다. for 변수 in 리스트(또는 튜플, 문자열): 수행할_문장1 수행할_문장2 ... 리스트나 튜플, 문자열의 첫 번째 요소부터 마지막 요소까지 차례로 변수에 대입되어 ‘수행할_문장1’, ‘수행할_문장2’ 등이 수행됩니다. 1. 전형적인 for 문 >>> add = 0 >>> for i in range(1, 11): ... add = add + i ... >>> print(add) 55 range(1, 11)은 숫자 1부터 10까지(1 이상 11 미만) 숫자를 데이터로 가지는 ..
문장을 반복해서 수행해야 할 경우 while 문을 사용합니다. 그래서 while 문을 ‘반복문’이라고도 부릅니다. while 문의 기본 구조 다음은 while 문의 기본 구조입니다. while 조건문: 수행할_문장1 수행할_문장2 수행할_문장3 ... while 문은 조건문이 참(True, 1)인 동안 while 문에 속한 문장들이 반복 수행 됩니다. 커피 자판기를 예를 들어, 자판기 안에 커피가 충분히 있을 때 동전을 넣으면 커피가 나옵니다. 그런데 자판기가 제대로 작동하려면 커피가 얼마나 남았는지 항상 검사해야 하죠. 만약 커피가 떨어졌다면 판매를 중단하고 ‘판매 중지’ 문구를 사용자에게 보여 주어야 합니다. 이렇게 판매를 강제로 멈추게 하는 것으로 break 문을 사용합니다. 위 예의 커피 자판기를..
IF 문의 기본 구조 다음은 if와 else를 사용한 조건문의 기본 구조이다. if 조건문: 수행할_문장1 수행할_문장2 ... else: 수행할_문장A 수행할_문장B ... 조건문을 테스트해서 참이면 if 문 아래 문장(if 블록)들을 수행하고 조건문이 거짓이면 else 문 다음 문장(else 블록)들을 수행하게 됩니다. 따라서 else 문은 if 문 없이 독립적으로 사용할 수 없습니다. 1. 비교 연산자 이번에는 조건문에 비교 연산자(, ==, !=, >=, y x가 y보다 크다. x == y x와 y가 같다. x != y x와 y가 같지 않다. x >= y x가 y보다 크거나 같다. x >> x = 3 >>> y = 2 >>> x > y True >>> x에 3, y에 2를 대입한 후 x > y라는..
파이썬에서는 문자열을 더하거나 곱할 수 있습니다. 이는 다른 언어에서는 쉽게 찾아볼 수 없는 재미있는 기능으로, 우리 생각을 그대로 반영해 주는 파이썬만의 장점이라고 할 수 있습니다. 문자열을 더하거나 곱하는 방법에 대해 알아보겠습니다. 1. 문자열 더해서 연결하기 >>> head = "Python" >>> tail = " is fun!" >>> head + tail 'Python is fun!' 위 소스 코드에서 네 번째 줄을 살펴봅시다. 결과는 'Python is fun!'입니다. 복잡하게 생각하지 말고 눈에 보이는 대로 생각해 보겠습니다. "Python"이라는 head 변수와 " is fun!"이라는 tail 변수를 더한 것입니다. 즉, head와 tail 변수가 +로 합쳐진 것입니다. 2. 문자열..