본문 바로가기
공부/R Programming

R 기초; 웹스크레이핑 base 패키지

by 혼밥맨 2021. 1. 14.
반응형

R 기초; 웹스크레이핑 base 패키지

 

 

string <- c("data analytics is useful", "business analytics is helpful", "visualization of data is interesting for data scientists")

 

string

[1] "data analytics is useful"   "business analytics is helpful" "visualization of data is interesting for data scientists

 

grep(pattern="data", x=string)

[1] 1 3

 

# grep 내 value를 TRUE로 지정하면 인덱스가 아닌 value를 반환

grep(pattern="data", x=string, value=TRUE)

[1] "data analytics is useful"           "visualization of data is interesting for data scientists"

 

string[grep(pattern="data", x=string)]

[1] "data analytics is useful"                                 "visualization of data is interesting for data scientists"

 

# string 내에 useful 또는 helpful을 포함하고 있으면 value를 반환

grep("useful|helpful", string, value=TRUE)

[1] "data analytics is useful"      "business analytics is helpful"

 

# invert=TRUE로 지정되어있으면 not의 의미 (반대 성질)

grep("useful|helpful", string, value=TRUE, invert=TRUE)

[1] "visualization of data is interesting for data scientists"

 

grepl(pattern="data", x=string)

[1]  TRUE FALSE  TRUE

 

# 미국 50개 주 반환

state.name

 

grepl("new", state.name, ignore.case=TRUE)

 [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[25] FALSE FALSE FALSE FALSE  TRUE  TRUE  TRUE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[49] FALSE FALSE

 

state.name[grepl("new", state.name, ignore.case=TRUE)]

[1] "New Hampshire" "New Jersey"    "New Mexico"    "New York"

 

sum(grepl("new", state.name, ignore.case=TRUE))

[1] 4

 

regexpr(pattern="data", text=string)

[1]  1 -1 18

attr(,"match.length")

[1] 4 -1 4

atrr(,"index.type")

[1] "chars"

attr(,"useBytes")

[1] TRUE

 

 

regmatches(x=string, m=regexpr("data", string))

[1] "data" "data"

 

regmatches(x=string, m=gregexpr("data", string))

[[1]]

[1] "data"

 

[[2]]

character(0)

 

[[3]]

[1] "data" "data"

 

 

unlist(strsplit(x=string, split=" "))

 [1] "data"          "analytics"     "is"            "useful"        "business"      "analytics"     "is"            "helpful"       "visualization"
[10] "of"            "data"          "is"            "interesting"   "for"           "data"          "scientists" 

 

# 중복 데이터 제거

unique(unliststrsplit(x=string, split=" ")))

 [1] "data"          "analytics"     "is"            "useful"        "business"      "helpful"       "visualization" "of"            "interesting"  
[10] "for"           "scientists"   

반응형

'공부 > R Programming' 카테고리의 다른 글

R 기초; 날짜와 시간  (0) 2021.01.15
R 기초; 웹 스크레이핑 stringr 패키지  (0) 2021.01.15
R 기초; 텍스트  (0) 2021.01.13
R 기초; 데이터프레임 인덱싱-3  (0) 2021.01.10
R기초; 데이터프레임 인덱싱 - 2  (0) 2021.01.10

댓글