Stanã‚’ä½¿ã£ã¦å¤‰æ•°é¸æŠžã—ãŸã„ - çµ±è¨ˆã‚³ãƒ³ã‚µãƒ«ã®è°äº‹ãƒ¡ãƒ¢

èƒŒæ™¯

Stanã‚’ä½¿ã£ã¦ãƒ¢ãƒ‡ãƒªãƒ³ã‚°ã‚’ã—ã¦ã„ã‚‹æ™‚ã«ä¸æº€ã‚’æ„Ÿã˜ã‚‹ç‚¹ã¨ã—ã¦ã€å¤‰æ•°é¸æŠžãŒé›£ã—ã„ã¨ã„ã†ã“ã¨ãŒæŒ™ã’ã‚‰ã‚Œã¾ã™ã€‚ã‚‚ã¨ã‚‚ã¨ç§è‡ªèº«ã¯ã€ä¾‹ãˆã°Stepwiseã‚„Lassoãªã©ã‚’ç”¨ã„ãŸ"æ©Ÿæ¢°çš„ãª"å¤‰æ•°é¸æŠžãŒã‚ã¾ã‚Šå¥½ãã§ã¯ãªã„¹ã®ã§ã™ãŒã€ãã‚Œã§ã‚‚åˆ†æžã‚’åŠ¹çŽ‡çš„ã«é€²ã‚ã‚‹ä¸Šã§ãã‚Œã‚‰ã®æ‰‹æ³•ã«é ¼ã‚ŠãŸããªã‚‹ã“ã¨ãŒã‚ã‚Šã¾ã™ã€‚

ãã†ã„ã£ãŸã¨ãã«glmã‚’ç”¨ã„ã¦ã„ã‚‹ã®ã§ã‚ã‚Œã°stepé–¢æ•°ã«ã‚ˆã‚Šå®¹æ˜“ã«å¤‰æ•°é¸æŠžãŒå¯èƒ½ãªã®ã§ã™ãŒã€Stanã§ã¯ãã†ã‚‚ã„ãã¾ã›ã‚“ã€‚ä½•ã‹è‰¯ã„æ–¹æ³•ã¯ãªã„ã‹ã¨æŽ¢ã—ã¦ã„ãŸã¨ã“ã‚ã€Stanã®Githubãƒ¬ãƒã‚¸ãƒˆãƒªã«{projpred}ã¨ã„ã†ãã‚Œã£ã½ã„libraryã‚’è¦‹ã¤ã‘ãŸã®ã§ã€ç´¹ä»‹ãŒã¦ã‚‰å¤‰æ•°ã®é¸æŠžç²¾åº¦ã‚’å®Ÿé¨“ã—ã¦ã¿ã¾ã™²ã€‚

ãƒ‡ãƒ¼ã‚¿æº–å‚™

ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã®èªã¿è¾¼ã¿

ä»Šå›žã®åˆ†æžã§ã¯{rstan}ã®ä»£ã‚ã‚Šã«{rstanarm}ã¨ã„ã†libraryã‚’ä½¿ç”¨ã—ã¾ã™ã€‚{rstanarm}ã¯Rã®glmã¨åŒã˜ã‚ˆã†ãªã‚·ãƒ³ã‚¿ãƒƒã‚¯ã‚¹ã®ã¾ã¾ã§ãƒ¢ãƒ‡ãƒ«ã‚’ãƒ™ã‚¤ã‚ºåŒ–ã™ã‚‹ã“ã¨ãŒå¯èƒ½ã§ã€ä¾‹ãˆã°{rstanarm}ã®vignetteã§ã¯ä»¥ä¸‹ã®ã‚ˆã†ãªã‚¹ãƒ‹ãƒšãƒƒãƒˆãŒç´¹ä»‹ã•ã‚Œã¦ã„ã¾ã™(ä¸€éƒ¨æ”¹å¤‰ã‚ã‚Š)³ã€‚

library(rstanarm)
data("womensrole", package = "HSAUR3")
womensrole$total <- womensrole$agree + womensrole$disagree

womensrole_bglm_1 <- stan_glm(cbind(agree, disagree) ~ education + gender,
                              data = womensrole,
                              family = binomial(link = "logit"), 
                              prior = student_t(df = 7), 
                              prior_intercept = student_t(df = 7),
                              chains = 4, cores = 1, seed = 123)

> womensrole_bglm_1
stan_glm
 family:       binomial [logit]
 formula:      cbind(agree, disagree) ~ education + gender
 observations: 42
 predictors:   3
------
             Median MAD_SD
(Intercept)   2.5    0.2  
education    -0.3    0.0  
genderFemale  0.0    0.1  

Sample avg. posterior predictive distribution of y:
         Median MAD_SD
mean_PPD 24.3    0.8  

------
For info on the priors used see help('prior_summary.stanreg').

æ•°å—ã®æ„å‘³ã¯ä¸€æ—¦ç½®ã„ã¦ãŠãã¾ã™ãŒã€ä»Šå›žã¯ã“ã¡ã‚‰ã®libraryã‚’ä½¿ç”¨ã—ãªãŒã‚‰é€²ã‚ã¦ã„ãã¾ã™ã€‚

ç¶šã„ã¦ä»–ã®libraryã‚’èªã¿è¾¼ã¿ã¾ã™ã€‚ã“ã®è¾ºã‚Šã¯vignetteãã®ã¾ã¾ã§ã™ã€‚

library(projpred)
library(ggplot2)
library(bayesplot)
theme_set(theme_bw())
options(mc.cores = parallel::detectCores())

ã‚·ãƒŸãƒ¥ãƒ¬ãƒ¼ã‚·ãƒ§ãƒ³ãƒ‡ãƒ¼ã‚¿ã®ä½œæˆ

å®Ÿé¨“ã‚’é€²ã‚ã‚‹ã«ã‚ãŸã‚Šã‚·ãƒŸãƒ¥ãƒ¬ãƒ¼ã‚·ãƒ§ãƒ³ãƒ‡ãƒ¼ã‚¿ã‚’ä½œæˆã—ã¾ã™ã€‚ã‚‚ã¡ã‚ã‚“libraryã«ä»˜å±žã®ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’ä½¿ã£ã¦ã‚‚è‰¯ã„ã®ã§ã™ãŒã€ãã®ã¾ã¾åŒã˜ã“ã¨ã‚’ã™ã‚‹ã®ã‚‚é¢ç™½ããªã„ã®ã§ä»¥ä¸‹ã®ã‚ˆã†ã«è¤‡æ•°ã®ãƒ‡ãƒ¼ã‚¿ã‚’ä½œæˆã—ã¦çµæžœã‚’æ¯”è¼ƒã—ã¦ã¿ã¾ã—ã‚‡ã†ï¼š

èª¬æ˜Žå¤‰æ•°ã®æ•°ãŒå°‘ãªã(20)ã€é€£ç¶šå¤‰æ•°ã®ã¿
èª¬æ˜Žå¤‰æ•°ã®æ•°ãŒå¤šã(100)ã€é€£ç¶šå¤‰æ•°ã®ã¿
èª¬æ˜Žå¤‰æ•°ã®æ•°ãŒå°‘ãªã(20)ã€ãƒ€ãƒŸãƒ¼å¤‰æ•°ã‚’å«ã‚€
èª¬æ˜Žå¤‰æ•°ã®æ•°ãŒå¤šã(100)ã€ãƒ€ãƒŸãƒ¼å¤‰æ•°ã‚’å«ã‚€

è¦‹ã¦ã‚ã‹ã‚‹é€šã‚Šã§ã€èª¬æ˜Žå¤‰æ•°ã®æ•°ã¨ãƒ€ãƒŸãƒ¼å¤‰æ•°ã®æœ‰ç„¡ã«ã‚ˆã£ã¦4ãƒ‘ã‚¿ãƒ¼ãƒ³ã‚’ç”¨æ„ã—ã¾ã™ã€‚ãªãœã“ã®ãƒ‘ã‚¿ãƒ¼ãƒ³ã«ã—ãŸã‹ã¨ã„ã†ã¨ã€å˜ç´”ã«vignetteã‚’è¦‹ã¦ã„ã¦é€£ç¶šå¤‰æ•°ã°ã‹ã‚Šã ãªã¨æ€ã£ãŸã®ã¨ã€ã‚µãƒ³ãƒ—ãƒ«ãƒ‡ãƒ¼ã‚¿ã®èª¬æ˜Žå¤‰æ•°ã®æ•°ãŒ20ãã‚‰ã„ã§ã€ã“ã‚Œãªã‚‰æ©Ÿæ¢°çš„ãªé¸æŠžã«é ¼ã‚‰ãªãã¦ã‚‚è‡ªåŠ›ã§ã©ã†ã«ã‹ã§ããã†ã ãªã€ã¨æ€ã£ãŸãŸã‚ã§ã™ã€‚

å„ãƒ‘ã‚¿ãƒ¼ãƒ³ã«ã¤ã„ã¦ç‰¹ã«ã²ãã‚Šã‚‚ãªããƒ‡ãƒ¼ã‚¿ã‚’ä½œæˆã—ã¾ã™ã€‚ãªãŠçœŸã®ãƒ¢ãƒ‡ãƒ«ã¯1ã¨2ã€3ã¨4ã§åŒä¸€ã®ã‚‚ã®ã¨ã—ã¾ã—ãŸã€‚ã—ãŸãŒã£ã¦2ã¨4ã®çŠ¶æ³ã¯ã€1ã¨3ãã‚Œãžã‚Œã«æ¯”ã¹ã¦ã€Œä¸è¦ãªãƒ‡ãƒ¼ã‚¿ã®ã¿ãŒè¿½åŠ ã•ã‚ŒãŸçŠ¶æ…‹ã€ã§ã®å¤‰æ•°é¸æŠžã¨ã„ã†çŠ¶æ³ã«ãªã‚Šã¾ã™ã€‚

ä»¥ä¸‹ã®ã‚ˆã†ã«å„ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’è¨å®šã—ã¾ã™ã€‚

set.seed(1)
N    <- 100 # number of observations
xn_1 <- 20  # number of variables for pattern 1
xn_2 <- 100 # number of variables for pattern 2

b1 <- 0.5 # regression coefficient of X[, 1]
b2 <- 0.8 # regression coefficient of X[, 2]

var_e <- 1 # residual variance

ãƒ‘ã‚¿ãƒ¼ãƒ³1 & 2ã«ã¤ã„ã¦ã€ã¾ãšä¹±æ•°ã«ã‚ˆã‚ŠXã‚’ç”Ÿæˆã—ã€ãã®ã†ã¡ã®2åˆ—ã‚’ä½¿ã£ã¦Yã‚’ä½œæˆã—ã¾ã™ã€‚ã¾ãŸãã®2åˆ—ã‚’å«ã‚€20åˆ—ãŠã‚ˆã³å…¨åˆ—ã‚’å„ãƒ‘ã‚¿ãƒ¼ãƒ³ã®èª¬æ˜Žå¤‰æ•°ã¨ã—ã¾ã™ã€‚

X <- matrix(rnorm(N * xn_2, 0, 1), nrow = N, ncol = xn_2)
Y <- 1.0 + X[, 1] * b1 + X[, 2] * b2 + rnorm(N, 0, var_e)

X1 <- X[, 1:xn_1]
X2 <- X[, 1:xn_2]

dat1 <- data.frame("Y" = Y, "X" = I(X1))
dat2 <- data.frame("Y" = Y, "X" = I(X2))

ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’ä½œæˆã™ã‚‹éš›ã«X1ã‚’I()ã§æ¸¡ã™ã“ã¨ã§ã€X1å…¨ä½“ã‚’"X"ã¨ã—ã¦å†å®šç¾©ã§ãã¾ã™ã€‚ã™ã‚‹ã¨ä»¥ä¸‹ã®ã‚ˆã†ãªformulaãŒå®Ÿè¡Œå¯èƒ½ã«ãªã‚Šã¾ã™ã€‚

> lm(Y ~ X, dat1)
Call:
lm(formula = Y ~ X, data = dat1)

Coefficients:
(Intercept)           X1           X2           X3           X4           X5           X6  
   1.038393     0.422365     0.824111     0.006940    -0.064897     0.060024    -0.004623  
         X7           X8           X9          X10          X11          X12          X13  
  -0.096471     0.040521     0.123807    -0.051311     0.125116     0.009435     0.014924  
        X14          X15          X16          X17          X18          X19          X20  
   0.065920    -0.037135    -0.110772    -0.015537    -0.003969    -0.136834     0.095512

ã‚‚ã¡ã‚ã‚“ãã®ã¾ã¾æ¸¡ã—ã¦.ã§æŒ‡å®šã™ã‚‹ã®ã§ã‚‚æ§‹ã„ã¾ã›ã‚“ã€‚

tmp <- data.frame("Y" = Y, "X" = X1)

> lm(Y ~ ., tmp)

Call:
lm(formula = Y ~ ., data = tmp)

Coefficients:
(Intercept)          X.1          X.2          X.3          X.4          X.5          X.6  
   1.038393     0.422365     0.824111     0.006940    -0.064897     0.060024    -0.004623  
        X.7          X.8          X.9         X.10         X.11         X.12         X.13  
  -0.096471     0.040521     0.123807    -0.051311     0.125116     0.009435     0.014924  
       X.14         X.15         X.16         X.17         X.18         X.19         X.20  
   0.065920    -0.037135    -0.110772    -0.015537    -0.003969    -0.136834     0.095512

ç¶šã„ã¦ãƒ‘ã‚¿ãƒ¼ãƒ³3 & 4ã«ã¤ã„ã¦ã‚‚åŸºæœ¬çš„ã«åŒã˜æµã‚Œã§ãƒ‡ãƒ¼ã‚¿ã‚’ä½œæˆã—ã¾ã™ãŒã€ä¸€éƒ¨ã«ãƒ€ãƒŸãƒ¼å¤‰æ•°ã‚’å«ã‚ã¾ã™ã€‚

Z <- matrix(rnorm(N * xn_2, 0, 1), nrow = N, ncol = xn_2)
Z[, seq(1, 100, 10)] <- if_else(Z[, seq(1, 100, 10)] > 0, 1, 0)
Y <- 1.0 + Z[, 1] * b1 + Z[, 2] * b2 + rnorm(N, 0, var_e)

X3 <- Z[, 1:xn_1]
X4 <- Z[, 1:xn_2]

dat3 <- data.frame("Y" = Y, "X" = I(X3))
dat4 <- data.frame("Y" = Y, "X" = I(X4))

ãƒ•ã‚£ãƒƒãƒ†ã‚£ãƒ³ã‚°

stan_glmã«ã‚ˆã‚‹ãƒ•ã‚£ãƒƒãƒ†ã‚£ãƒ³ã‚°

ã§ã¯ã€ã“ã‚Œã‚‰ã®ãƒ‡ãƒ¼ã‚¿ã‚’ç”¨ã„ã¦ãƒ•ã‚£ãƒƒãƒ†ã‚£ãƒ³ã‚°ã‚’ã—ã¦ã¿ã¾ã—ã‚‡ã†ã€‚ã‚¹ã‚¯ãƒªãƒ—ãƒˆã¯ä»¥ä¸‹ã®ã‚ˆã†ã«ãªã‚Šã¾ã™ï¼š

n <- N
D <- xn_1
p0 <- 5 # prior guess for the number of relevant variables

# scale for tau (notice that stan_glm will automatically scale this by sigma)
tau0 <- p0 / (D-p0) * 1/sqrt(n) 
prior_coeff <- hs(global_scale = tau0, slab_scale = 1) # regularized horseshoe prior
fit1 <- stan_glm(Y ~ X, family = gaussian(), data = dat1, prior = prior_coeff,
                 seed = 777, chains = 4, iter = 2000)

D <- xn_2
p0 <- 5
tau0 <- p0/(D-p0) * 1/sqrt(n) 
prior_coeff <- hs(global_scale = tau0, slab_scale = 1)
fit2 <- stan_glm(Y ~ X, family = gaussian(), data = dat2, prior = prior_coeff,
                 seed = 777, chains = 4, iter = 2000)

D <- xn_1
p0 <- 5
tau0 <- p0 / (D-p0) * 1/sqrt(n) 
prior_coeff <- hs(global_scale = tau0, slab_scale = 1)
fit3 <- stan_glm(Y ~ X, family = gaussian(), data = dat3, prior = prior_coeff,
                 seed = 777, chains = 4, iter = 2000)

D <- xn_2
p0 <- 5
tau0 <- p0 / (D-p0) * 1/sqrt(n) 
prior_coeff <- hs(global_scale = tau0, slab_scale = 1)
fit4 <- stan_glm(Y ~ X, family = gaussian(), data = dat4, prior = prior_coeff,
                 seed = 777, chains = 4, iter = 2000)

å®Ÿè¡Œç”»é¢ã¯çœç•¥ã—ã¾ã™ã€‚

çµæžœã®ç¢ºèª

ç„¡äº‹ã«ãƒ•ã‚£ãƒƒãƒ†ã‚£ãƒ³ã‚°ãŒçµ‚ã‚ã£ãŸã®ã§ã¾ãšã¯çµæžœã‚’ç¢ºèªã—ã¾ã—ã‚‡ã†ã€‚fit1ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã«ã¯å¤šãã®æƒ…å ±ãŒæ ¼ç´ã•ã‚Œã¦ã„ã¾ã™ãŒã€ä»¥ä¸‹ã®ã‚ˆã†ã«ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®åˆ†å¸ƒã‚’ç¢ºèªã—ã¾ã™(çµæžœã¯ä¸€éƒ¨æŠœç²‹)ã€‚

> fit1$stan_summary
                       mean      se_mean         sd          2.5%           10%           25%           50%           75%           90%         97.5%    n_eff      Rhat
(Intercept)    1.026278e+00 0.0012818960 0.08107422    0.87096060    0.92283578  9.695387e-01  1.025776e+00  1.083455e+00    1.12962235    1.18570039 4000.000 1.0002199
X1             3.908290e-01 0.0016254360 0.09798225    0.19341915    0.26638997  3.278100e-01  3.940279e-01  4.542220e-01    0.51236797    0.57793402 3633.750 0.9999048
X2             8.240328e-01 0.0013608445 0.08516982    0.65884688    0.71552972  7.672683e-01  8.238806e-01  8.816342e-01    0.93310548    0.98857084 3917.008 0.9995082
X3            -1.059357e-03 0.0005388889 0.03408233   -0.08025937   -0.03484370 -1.106505e-02 -1.177711e-04  1.032889e-02    0.03180827    0.07368474 4000.000 1.0005552
X4            -1.872770e-02 0.0007089570 0.04483838   -0.13979248   -0.07768171 -3.228712e-02 -3.977780e-03  3.213492e-03    0.01638515    0.04656703 4000.000 0.9998376
X5             2.138502e-02 0.0006738661 0.04261903   -0.03511247   -0.01201396 -1.858049e-03  6.263328e-03  3.500771e-02    0.07857940    0.13847975 4000.000 0.9993905# ï¸™
# ä»¥ä¸‹çœç•¥
# ï¸™

ã“ã®çµæžœã‚’è¦‹ã‚‹ã¨X1ã¨X2ã§æ¦‚ãè¨å®šé€šã‚Šã®å€¤ãŒå¾—ã‚‰ã‚Œã¦ã„ã‚‹ã‚ˆã†ã§ã™ãã€‚

ã§ã¯ã“ã“ã‹ã‚‰{projpred}ã«ã‚ˆã‚‹å¤‰æ•°é¸æŠžã«å–ã‚ŠæŽ›ã‹ã‚Šã¾ã—ã‚‡ã†ã€‚ã‚¹ã‚¯ãƒªãƒ—ãƒˆã¯ä»¥ä¸‹ã®ã‚ˆã†ã«ãªã‚Šã¾ã™ï¼š

sel1 <- varsel(fit1, method = 'forward')

> sel1$varsel$vind # variables ordered as they enter during the search
 X2  X1 X20 X16 X19 X11  X5 X14 X18  X4  X7  X9  X8 X17 X10 X15 X13 X12  X3  X6 
  2   1  20  16  19  11   5  14  18   4   7   9   8  17  10  15  13  12   3   6

ãŠãŠã£ï¼ã¡ã‚ƒã‚“ã¨1åˆ—ç›®ã¨2åˆ—ç›®ãŒé¸ã°ã‚Œã¦ã„ã¾ã™ãï¼ä¸‹è¨˜ã®ãƒ—ãƒãƒƒãƒˆã‚’è¦‹ã¦ã‚‚ã€3ç•ªç›®ä»¥é™ã®å¤‰æ•°ã¯ãƒ¢ãƒ‡ãƒ«ã®ç²¾åº¦ã«å¯¾ã—ã¦å¯„ä¸Žã—ã¦ã„ãªã„ã“ã¨ãŒã‚ã‹ã‚‹ã¨æ€ã„ã¾ã™ã€‚ãªãŠã“ã“ã§elpdã¯expected log predictive densityã‚’æŒ‡ã—ã¾ã™ãŒã€ã¡ã‚‡ã£ã¨æƒ…å ±é‡è¦æº–è¾ºã‚Šã®è©±ã¯ã†ã‹ã¤ã«è§£èª¬ã§ããªã„ã®ã§vignetteã‚’å¼•ç”¨ã™ã‚‹ã«ç•™ã‚ã¦ãŠãã¾ã™ã€‚

The loo method for stanreg objects provides an interface to the loo package for approximate leaveone-out cross-validation (LOO). The LOO Information Criterion (LOOIC) has the same purpose as the Akaike Information Criterion (AIC) that is used by frequentists. Both are intended to estimate the expected log predictive density (ELPD) for a new dataset.

varsel_plot(sel1, stats=c('elpd', 'rmse'))

f:id:ushi-goroshi:20180422011154p:plain

å„ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®åˆ†å¸ƒã«ã¤ã„ã¦ã‚‚è¦‹ã¦ã¿ã¾ã—ã‚‡ã†ã€‚ä¸Šä½5å€‹ã«é¸ã°ã‚ŒãŸèª¬æ˜Žå¤‰æ•°ã«é™å®šã—ã¦ãƒ—ãƒãƒƒãƒˆã—ã¦ã¿ã¾ã™ã€‚

# Visualise the three most relevant variables in the full model
mcmc_areas(as.matrix(sel1), 
           pars = names(sel1$varsel$vind[1:5])) + 
   coord_cartesian(xlim = c(-2, 2))

f:id:ushi-goroshi:20180422011230p:plain

åŠ¹æžœã®ãªã‹ã£ãŸå¤‰æ•°ã¯0ã‚’ä¸å¿ƒã«é›†ä¸ã—ã¦åˆ†å¸ƒã—ã¦ã„ã‚‹ã“ã¨ãŒã‚ã‹ã‚Šã¾ã™ã€‚

æ®‹ã‚Šã®å„ãƒ‘ã‚¿ãƒ¼ãƒ³ã«ã¤ã„ã¦ã‚‚åŒæ§˜ã«è¦‹ã¦ã„ãã¾ã™ãŒã€å€‹åˆ¥ã«ç¢ºèªã™ã‚‹ã®ã¯é¢å€’ãªã®ã§ä¸€åº¦ã«ã¾ã¨ã‚ã¦ã—ã¾ã—ã¾ã™ã€‚

sel2 <- varsel(fit2, method = 'forward')
sel3 <- varsel(fit3, method = 'forward')
sel4 <- varsel(fit4, method = 'forward')

> sel2$varsel$vind
 X2  X1 X87 X24 X83 X71 X89 X18 X95 X85  X4 X67 X19 X16 X60 X56 X55 X53 X42 X20 
  2   1  87  24  83  71  89  18  95  85   4  67  19  16  60  56  55  53  42  20 

> sel3$varsel$vind
 X2 X14  X4  X1 X18  X5 X16  X3  X9 X15 X19 X20  X6  X8 X17 X11  X7 X12 X13 X10 
  2  14   4   1  18   5  16   3   9  15  19  20   6   8  17  11   7  12  13  10 

> sel4$varsel$vind
 X2 X90 X74 X45 X64 X14 X25 X52 X60  X4 X20 X16 X22  X1 X63 X41  X9 X26 X53  X5 
  2  90  74  45  64  14  25  52  60   4  20  16  22   1  63  41   9  26  53   5

ã‚€ã‚€ã€‚ã€‚ã€‚

ã„ãšã‚Œã®ãƒ‘ã‚¿ãƒ¼ãƒ³ã§ã‚‚2åˆ—ç›®ã¯ã¡ã‚ƒã‚“ã¨é¸ã°ã‚Œã¦ã„ã¾ã™ãŒã€ãƒ‘ã‚¿ãƒ¼ãƒ³3ã¨4ã§ã¯1åˆ—ç›®ãŒé¸ã°ã‚Œã¦ã„ã¾ã›ã‚“ãã€‚ ãƒ—ãƒãƒƒãƒˆã‚‚è¦‹ã¦ã¿ã¾ã—ã‚‡ã†ã€‚

varsel_plot(sel2, stats=c('elpd', 'rmse'))
varsel_plot(sel3, stats=c('elpd', 'rmse'))
varsel_plot(sel4, stats=c('elpd', 'rmse'))

f:id:ushi-goroshi:20180422011402p:plain

æ£ã—ã„å¤‰æ•°ã‚»ãƒƒãƒˆãŒé¸ã°ã‚Œã¦ã„ãªã„ã®ã§å½“ç„¶ã§ã™ãŒã€2å¤‰æ•°ç›®ã§ã™ã§ã«ãƒ•ãƒ«ãƒ¢ãƒ‡ãƒ«ã«ãŠã‘ã‚‹elpdã‚„rmseã¨æŽ¥ã™ã‚‹ã‚ˆã†ã«ãªã£ã¦ãŠã‚Šã€ãƒ¢ãƒ‡ãƒ«ã®ç²¾åº¦æ”¹å–„ã«è²¢çŒ®ã—ã¦ã„ã‚‹ã®ã¯1å¤‰æ•°ç›®ã ã‘ã¨ã„ã†çµæžœã«ãªã£ã¦ã„ã¾ã™ã€‚

ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®åˆ†å¸ƒã‚’è¦‹ã¦ã‚‚ã€ãƒ‘ã‚¿ãƒ¼ãƒ³1ã¨æ¯”è¼ƒã™ã‚‹ã¨ã„ãšã‚Œã‚‚åˆ†å¸ƒã®è£¾ãŒåºƒããªã£ã¦ã„ã¾ã™ã€‚ã•ã‚‰ã«ãƒ‘ã‚¿ãƒ¼ãƒ³3ã§ã¯æ£ã®åŠ¹æžœã‚’å—ã‘ãŸãŸã‚ã‹å³ã«è£¾ã‚’å¼•ãå½¢ã¨ã¯ãªã£ã¦ã„ã‚‹ã‚‚ã®ã®ã€åŠ¹æžœã®ãªã„ä»–ã®å¤‰æ•°ã¨ã»ã¨ã‚“ã©å¤‰ã‚ã‚‰ãªã„åˆ†å¸ƒã¨ãªã£ã¦ã—ã¾ã„ã¾ã—ãŸã€‚ãƒ€ãƒŸãƒ¼å¤‰æ•°ã¯ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®æŽ¨å®šãŒé›£ã—ã„ã‚ˆã†ã§ã™ã€‚

mcmc_areas(as.matrix(sel2), 
           pars = names(sel2$varsel$vind[1:5])) + 
   coord_cartesian(xlim = c(-2, 2))
mcmc_areas(as.matrix(sel3), 
           pars = names(sel3$varsel$vind[1:5])) + 
   coord_cartesian(xlim = c(-2, 2))
mcmc_areas(as.matrix(sel4), 
           pars = names(sel4$varsel$vind[1:5])) + 
   coord_cartesian(xlim = c(-2, 2))

f:id:ushi-goroshi:20180422011622p:plain

è¿½è©¦

ã§ã¯ã€ãƒ€ãƒŸãƒ¼å¤‰æ•°ãŒå«ã¾ã‚Œã‚‹å ´åˆã«çœŸã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’æ‰ãˆã‚‹ã“ã¨ãŒã§ãã‚‹ç¢ºçŽ‡ã¨ã—ã¦ã¯ã©ã®ç¨‹åº¦ã«ãªã‚‹ã®ã§ã—ã‚‡ã†ã‹ã€‚ãƒ‘ã‚¿ãƒ¼ãƒ³3ã‚’100å›žç¹°ã‚Šè¿”ã—ã€ãã®ã†ã¡ä½•å›žçœŸã®å¤‰æ•°ã‚»ãƒƒãƒˆã‚’é¸æŠžã§ãã‚‹ã‹ç¢ºèªã—ã¦ã¿ã¾ã—ã‚‡ã†ã€‚

n  <- 100
t  <- 100
D  <- 20
p0 <- 5
b1 <- 0.5
b2 <- 0.8
tau0 <- p0 / (D-p0) * 1/sqrt(n) 

out <- matrix(0, t, 2)
for (i in 1:t) {
   x <- matrix(rnorm(n * D, 0, 1), nrow = n)
   x[, seq(1, D, 5)] <- ifelse(x[, seq(1, D, 5)] > 0, 1, 0)
   y <- 1.5 + x[, 1] * b1 + x[, 2] * b2 + rnorm(n, 0, 1)
   dat <- data.frame("y" = y, "x" = I(x))
   
   prior_coeff <- hs(global_scale = tau0, slab_scale = 1)
   fit0 <- stan_glm(y ~ x, family = gaussian(), data = dat, prior = prior_coeff,
                    chains = 4, iter = 2000)
   sel0 <- varsel(fit0)
   out[i, ] <-  names(sel0$varsel$vind[1:2])
}

> table(out[, 1])

 x2 
100 

> table(out[, 2])

 x1 x10 x11 x12 x13 x14 x15 x17 x18 x19 x20  x3  x4  x5  x6  x7  x9 
 55   2   2   3   3   1   1   5   5   1   1   2   7   4   1   4   3

ãªã‚“ã¨ã€é€£ç¶šå¤‰æ•°ã§ã‚ã‚‹2åˆ—ç›®ã®é¸æŠžç¢ºçŽ‡ã¯100%ã§ã‚ã‚‹ä¸€æ–¹ã€ãƒ€ãƒŸãƒ¼å¤‰æ•°ã§ã‚ã‚‹1åˆ—ç›®ã¯ç´„åŠæ•°ã—ã‹é¸æŠžã•ã‚Œãªã„ã¨ã„ã†çµæžœã«ãªã‚Šã¾ã—ãŸã€‚ã‚‚ã¡ã‚ã‚“å›žå¸°ä¿‚æ•°ã®å¤§å°ã«ã‚‚å½±éŸ¿ã•ã‚Œã‚‹ã®ã§ã—ã‚‡ã†ãŒã€çµæ§‹è¡æ’ƒçš„ãªçµæžœã«æ€ãˆã¾ã™ã€‚

çµ‚ã‚ã‚Šã«

é€£ç¶šå¤‰æ•°ã§ã‚ã‚Œã°èª¬æ˜Žå¤‰æ•°ã‚’20ã‹ã‚‰100ã«å¢—ã‚„ã—ã¦ã‚‚å¤§ããªå•é¡Œãªãå¤‰æ•°ã‚’é¸æŠžã§ããã†
ãƒ€ãƒŸãƒ¼å¤‰æ•°ã®å¤‰æ•°é¸æŠžã¯é›£ã—ãã€ä»Šå›žã®æ¡ä»¶ã®å ´åˆã€åŠåˆ†ã®ç¢ºçŽ‡ã§å¤±æ•—ã™ã‚‹

å®Ÿéš›ã®ãƒ‡ãƒ¼ã‚¿åˆ†æžã®ç¾å ´ã§ã¯çœŸã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’äºˆã‚çŸ¥ã‚‹ã“ã¨ãŒã§ããªã„ãŸã‚ã€å¤‰æ•°é¸æŠžã®çµæžœã‚’å—ã‘å…¥ã‚Œã–ã‚‹ã‚’å¾—ãªã„ã“ã¨ãŒã‚ã‚‹ã‹ã¨æ€ã„ã¾ã™ã€‚ã—ã‹ã—ä»Šå›žã®å®Ÿé¨“ã®çµæžœã‹ã‚‰ã¯ã€ŒçœŸã®å¤‰æ•°ã‚»ãƒƒãƒˆã‚’é¸æŠžã§ãã‚‹ç¢ºçŽ‡ã¯åŠåˆ†ç¨‹åº¦ã—ã‹ãªã„ã€ã“ã¨ãŒç¤ºã•ã‚Œã¦ãŠã‚Šã€æ©Ÿæ¢°çš„ãªå¤‰æ•°ã®å–æ¨é¸æŠžãŒã©ã‚Œã»ã©å±é™ºã§ã‚ã‚‹ã‹ã‚’æ•™ãˆã¦ãã‚Œã¦ã„ã‚‹ã®ã§ã¯ãªã„ã§ã—ã‚‡ã†ã‹ã€‚

ã¨ã¯è¨€ãˆä»Šå›žå®Ÿé¨“ã«ä½¿ç”¨ã—ãŸ{projpred}ã¯ä¾¿åˆ©ãªlibraryã§ã‚ã‚‹ã¨æ€ã„ã¾ã™ã®ã§ã€ã“ã‚Œã‹ã‚‰æ´»ç”¨ã—ã¤ã¤ã‚‚å¼•ãç¶šãå¤‰æ•°é¸æŠžã®æ–¹æ³•ã«ã¤ã„ã¦æŽ¢ã—ã¦ã„ã“ã†ã¨æ€ã„ã¾ã™ã€‚

æŽ¢ç´¢çš„ãªåˆ†æžã®æ™‚ã¯ã¨ã‚‚ã‹ãã€å¤‰æ•°ã®æ©Ÿæ¢°çš„ãªå–æ¨é¸æŠžã¯ã€Œãƒ¢ãƒ‡ãƒªãƒ³ã‚°ã˜ã‚ƒãªã„ï¼ã€ã¨ã„ã†æ°—åˆ†ã«ãªã£ã¦ã—ã¾ã„ã¾ã™↩
ä»–ã«ã‚‚è‰¯ã„æ‰‹æ³•ã¯ã‚ã‚‹ã¨æ€ã„ã¾ã™ã€‚ä¾‹ãˆã°æ¾æµ¦ã•ã‚“ã®ã‚¢ãƒ’ãƒ«æœ¬ã§ã¯ã€å›žå¸°ä¿‚æ•°ã®äº‹å‰åˆ†å¸ƒã‚’äºŒé‡æŒ‡æ•°åˆ†å¸ƒã¨ã™ã‚‹ã“ã¨ã§ä¸è¦ãªèª¬æ˜Žå¤‰æ•°ã‚’å‰Šã‚‹"Bayesian Lasso"ã¨ã„ã†æ‰‹æ³•ãŒç´¹ä»‹ã•ã‚Œã¦ã„ã¾ã™↩
Gelmanã®arm::bayesglmã¨ã®é–¢ä¿‚ã¯ã‚ˆãã‚ã‹ã‚Šã¾ã›ã‚“ã€‚ä¸€å¿œã€dependencyã§ã¯ãªã„ã‚ˆã†ã§ã™ãŒã€‚↩