R 기초; 웹스크레이핑 base 패키지

string <- c("data analytics is useful", "business analytics is helpful", "visualization of data is interesting for data scientists")

string

[1] "data analytics is useful" "business analytics is helpful" "visualization of data is interesting for data scientists

grep(pattern="data", x=string)

[1] 1 3

# grep 내 value를 TRUE로 지정하면 인덱스가 아닌 value를 반환

grep(pattern="data", x=string, value=TRUE)

[1] "data analytics is useful" "visualization of data is interesting for data scientists"

string[grep(pattern="data", x=string)]

[1] "data analytics is useful" "visualization of data is interesting for data scientists"

# string 내에 useful 또는 helpful을 포함하고 있으면 value를 반환

grep("useful|helpful", string, value=TRUE)

[1] "data analytics is useful" "business analytics is helpful"

# invert=TRUE로 지정되어있으면 not의 의미 (반대 성질)

grep("useful|helpful", string, value=TRUE, invert=TRUE)

[1] "visualization of data is interesting for data scientists"

grepl(pattern="data", x=string)

[1] TRUE FALSE TRUE

# 미국 50개 주 반환

state.name

grepl("new", state.name, ignore.case=TRUE)

[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[25] FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[49] FALSE FALSE

state.name[grepl("new", state.name, ignore.case=TRUE)]

[1] "New Hampshire" "New Jersey" "New Mexico" "New York"

sum(grepl("new", state.name, ignore.case=TRUE))

[1] 4

regexpr(pattern="data", text=string)

[1] 1 -1 18

attr(,"match.length")

[1] 4 -1 4

atrr(,"index.type")

[1] "chars"

attr(,"useBytes")

[1] TRUE

regmatches(x=string, m=regexpr("data", string))

[1] "data" "data"

regmatches(x=string, m=gregexpr("data", string))

[[1]]

[1] "data"

[[2]]

character(0)

[[3]]

[1] "data" "data"

unlist(strsplit(x=string, split=" "))

[1] "data" "analytics" "is" "useful" "business" "analytics" "is" "helpful" "visualization"
[10] "of" "data" "is" "interesting" "for" "data" "scientists"

# 중복 데이터 제거

unique(unliststrsplit(x=string, split=" ")))

[1] "data" "analytics" "is" "useful" "business" "helpful" "visualization" "of" "interesting"
[10] "for" "scientists"

'공부 > R Programming' 카테고리의 다른 글

R 기초; 날짜와 시간 (0)	2021.01.15
R 기초; 웹 스크레이핑 stringr 패키지 (0)	2021.01.15
R 기초; 텍스트 (0)	2021.01.13
R 기초; 데이터프레임 인덱싱-3 (0)	2021.01.10
R기초; 데이터프레임 인덱싱 - 2 (0)	2021.01.10

혼밥맨

R 기초; 웹스크레이핑 base 패키지