R 기초; 웹스크레이핑 base 패키지
string <- c("data analytics is useful", "business analytics is helpful", "visualization of data is interesting for data scientists")
string
[1] "data analytics is useful" "business analytics is helpful" "visualization of data is interesting for data scientists
grep(pattern="data", x=string)
[1] 1 3
# grep 내 value를 TRUE로 지정하면 인덱스가 아닌 value를 반환
grep(pattern="data", x=string, value=TRUE)
[1] "data analytics is useful" "visualization of data is interesting for data scientists"
string[grep(pattern="data", x=string)]
[1] "data analytics is useful" "visualization of data is interesting for data scientists"
# string 내에 useful 또는 helpful을 포함하고 있으면 value를 반환
grep("useful|helpful", string, value=TRUE)
[1] "data analytics is useful" "business analytics is helpful"
# invert=TRUE로 지정되어있으면 not의 의미 (반대 성질)
grep("useful|helpful", string, value=TRUE, invert=TRUE)
[1] "visualization of data is interesting for data scientists"
grepl(pattern="data", x=string)
[1] TRUE FALSE TRUE
# 미국 50개 주 반환
state.name
grepl("new", state.name, ignore.case=TRUE)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[25] FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[49] FALSE FALSE
state.name[grepl("new", state.name, ignore.case=TRUE)]
[1] "New Hampshire" "New Jersey" "New Mexico" "New York"
sum(grepl("new", state.name, ignore.case=TRUE))
[1] 4
regexpr(pattern="data", text=string)
[1] 1 -1 18
attr(,"match.length")
[1] 4 -1 4
atrr(,"index.type")
[1] "chars"
attr(,"useBytes")
[1] TRUE
regmatches(x=string, m=regexpr("data", string))
[1] "data" "data"
regmatches(x=string, m=gregexpr("data", string))
[[1]]
[1] "data"
[[2]]
character(0)
[[3]]
[1] "data" "data"
unlist(strsplit(x=string, split=" "))
[1] "data" "analytics" "is" "useful" "business" "analytics" "is" "helpful" "visualization"
[10] "of" "data" "is" "interesting" "for" "data" "scientists"
# 중복 데이터 제거
unique(unliststrsplit(x=string, split=" ")))
[1] "data" "analytics" "is" "useful" "business" "helpful" "visualization" "of" "interesting"
[10] "for" "scientists"
'공부 > R Programming' 카테고리의 다른 글
R 기초; 날짜와 시간 (0) | 2021.01.15 |
---|---|
R 기초; 웹 스크레이핑 stringr 패키지 (0) | 2021.01.15 |
R 기초; 텍스트 (0) | 2021.01.13 |
R 기초; 데이터프레임 인덱싱-3 (0) | 2021.01.10 |
R기초; 데이터프레임 인덱싱 - 2 (0) | 2021.01.10 |
댓글