바트 크롤러 정규식 작성하기

공부하기/웹2017. 9. 8. 20:13
반응형

본 내용은 바트 파싱기에서 사용하는 정규식을 작성하는 방법에 대해서 작성합니다.

정규식은 다른 곳에서도 사용가능한 부분이며 같은 내용이니 참고하셔도 상관없습니다.

단지 바트 파싱기 쓰시는 분들이 많을 것 같아 바트 파싱기에 최적화된 정규식에 대해서 이야기 해볼 생각입니다.


1. 바트 파싱기

http://bartfarthing.co.kr 

이곳을 방문 하시면 바트 파싱기를 구매하실 수 있습니다. 정규식도 이곳에서 배울 수 있으나 내용이 부실하여 이해하는데 어려움이 있습니다.

 

가격은 약 15만원입니다. 

주로  그누보드에서 사용을 합니다.



2. HTML

정규식을 작성하기 위해서 최소한의 프로그래밍적인 지식이 있어야 합니다.

HTML과 CSS, 자바정도가 기초라고 말씀드릴 수 있는데 자바는 배워야할 부분이 너무 방대하니 생략하고 간단한 HTML과 CSS 문법들만 배워봅시다.


HTML은 홈페이지를 이루는 기본 요소의 언어로 초보자가 한달정도만 배워도 금방 배울수 있는 쉬운 언어 입니다.

물론 한달이나 걸려서 다 마스터할 필요 없으시니 정규식을 배우기 위한 간단한 HTML의 형태를 배우는게 중요합니다.

HTML은 꺽세 기호 "<"과 ">"로 둘러싸여있는 형태의 코드들이 시작과 끝을 가지고 있습니다.

시작은 HTML 문서의 시작을 알리는

<HTML>을 시작으로 헤드와 바디부분으로 나뉩니다.

헤드 부분은 <head> ... </head>로 주로 화면에 표시되는 부분보다는 이 문서에 대해서 정리하는 내용들이 담겨 있습니다. 익스플로러나 크롬 상부의 제목 표시줄에 표시되는 제목들이 이곳에서 정의되어 있습니다. 

주로 파싱하려는 부분이 헤드 부분에는 거의 없습니다.(제목정도?) 보통은 무시하고 넘어가져도 되는데 날짜나 제목은 이곳에서 크롤링 하셔도 됩니다.

싸이트마다 날짜가 헤드 부분에 나온 곳도 있고 아닌 부분도 있고 하니 그 부분은 잘 파악하셔서 하시기 바랍니다.

보통 저 같은 경우 헤드 부분을 보면 만들어진 싸이트가 그누보드인지 제로보드인지 판단이 됩니다.

자주쓰는 함수정의가 헤드부분에서 되어 있어서 g4_ 라는 글귀가 보이면 아 그누보드4구나 혹은 g5_ 그누보드5 구나 혹은 xe라고 되어 있는 부분들이 간혹 발견되어 홈페이지가 어떤 cms 툴로 만들어 졌는지 확인이 가능합니다.


// 이렇게 표시된 부분은 각주입니다. 설명하는 글을 적기 위한 표시 임으로 소스 없다고 생각하시고 보시기 바랍니다.

<body> 부분은 실제로 화면에 보여질 몸통 부분이 존재하는 곳입니다. 우리는 이곳을 집중 공략해야 합니다.

바디 안쪽은 긁어올 데이터가 있습니다.

필요한 부분을 잘 찾아보아야 하는데 항상 HTML 태그는 시작과 끝이 존재 한다고 말씀 드렸습니다.


3. html 본문 내용 찾기 

대략적인 html을 빠르게 둘러보았으니 이제 필요한 부분에 대해서 살펴보도록 합시다.

우리가 필요한 부분을 소스에서 빠르게 찾는 방법이 필요합니다. 

크롬 개발자 도구를 이용할 생각인데 자세한 설명은 생활코딩을 한번 읽어보시면 좋겠습니다.

https://opentutorials.org/course/580

여기에서 엘리멘트 부분과 소스부분을 보시면 됩니다.


간단한 설명을 드리자면 F12를 누르시면 등장하는 



오른쪽 창인데 이 창에서 빨간 화살표를 누르시면 왼쪽 화면에서 특정부분이 네모난 선택툴로 변경됩니다.



이렇게 선택하시면 오른쪽 창에서 

소스의 부분이 정확히 선택이 됩니다.

좀더 자세히 보기 위해서 ▶ 를 클릭해보면 접혀져 있는 부분이 나타납니다.


글제목과 일치하는 부분이 등장합니다. 이부분이 소스에서 화면상 나타나는 곳임을 알 수 있습니다. 이 부분을 복사하여 소스에서 찾도록 합니다.

소스에서 ctrl + f 를 누르시면 검색이 가능하며 찾을 검색어를 집어 넣으시면 저부분이 등장합니다.

본문에서 빠르게 내용을 찾는 방법까지 익히셨네요!


정규식 작성은 2부에서 찾아뵙겠습니다!



반응형

작성자

Posted by 지곰군

관련 글

댓글 영역