asklife

IT&Life

Month: 10月 2012 (page 1 of 3)

ベイズ理論とかベイズ推定とかベイジアンフィルタの話

ベイズ理論とかベイズ推定とかベイジアンフィルタとか

主にspamメール対策として活用されている(た)らしい。

Googleの検索アルゴリズムとか。(昔の話かな?)

ベイズ理論は条件付き確率の話で、要点としては、ユーザがspam認定したメールの本文内に頻出する語句の確率と、spam認定していないメールの本文内に出現する語句の確率を求めて、閾値を導き出すという話。

(spamである確率を元にした)閾値を元にフィルタリングするアルゴリズムがベイジアンフィルタというもの。

母数が大きくなればなるほどその精度は高まっていく。(はず)

おそらく、精度問題となるのはゴミ情報だろう。

その辺りをどうするのか、というのも調べてみたいところ。

あとベイジアンフィルタのサンプルソースとかどこかにないのかなー。

この辺わかりやすい解説記事ですね。

http://www.atmarkit.co.jp/fsec……yes01.html

Googleの検索コマンド&演算子って色々とあるんですねぇ。

Googleの検索コマンドと演算子がいろいろな種類があることを知り、今後も使っていきたいのでまとめてメモしておきます。

検索コマンド
link:
対象 URL のリンク元を表示
使い方:link:http://asklife.jp/

cache:
対象 URL のキャッシュを表示
使い方:cache:http://asklife.jp/

related:
対象 URL の関連ページを表示
使い方:related:http://asklife.jp/

info:
検索にURLを指定したのと同じ
使い方:info:www.yahoo.co.jp/

site:
対象ドメイン内の文字列を検索(複数語の指定可)
使い方: site:asklife.jp IT Life
使い方:site:asjkufe.jp filetype:xml

allinurl:
URL に含まれる文字列のみ検索
複数語の指定可
使い方:allinurl:asklife

inurl:
URL 又はページ内に含まれる文字列を検索
複数語の指定可
使い方:inurl:asklife IT

allintitle:
ページ タイトルに含まれる文字列のみ検索
複数語の指定可
使い方:allintitle:asklife IT

intitle:
ページ タイトル又はテキストに含まれる文字列を検索
複数語の指定可
使い方:intitle:asklife IT

filetype:
pdf、ps、doc、xls、ppt、rtf 等ファイルタイプを指定し文字列を検索
未公認では cgi、php、asp xml、shtml、mw等とLotusやMicrosoftの形式もある
html と htm も区別される
-filetype:pdf と入力すると pdf を含まない検索
複数語の指定可
使い方:filetype:pdf asklife

allintext:
html〜html間に含まれる文字列のみを検索対象にする
Google のキャッシュで「これらのキーワードは、このページにむけて張られているリンクに含まれています」 は検索結果から無くなる
複数語の指定可
使い方:allintext:asklife

allinanchor:
ページへのリンク内に含まれる文字列のみを検索対象にする
使い方:allinanchor:asklife

daterange:
日付の範囲(ユリウス日の整数部)の指定を1日単位で行う為のフィルタ
タイムゾーンやGoogleクロール時の影響をうける
複数語の指定可 他の検索コマンドとも組み合わせ可
使い方:asklife daterange:2453002-2453012

movie:
映画に関する情報を表示する特殊機能(日本語は未対応)
使い方:movie:asklife movie

おまけ

Google翻訳
テキストとURL翻訳。英語を中心とした各国言語の相互翻訳機能で検索結果のページからも利用できる

サジェスト
日本語にも対応したクエリー入力補助機能で多く検索されたキーワードの候補を表示する
普通の検索結果のURLに “&complete=1” を追加しても良い

参考記事
http://search.web-sun.com/g_help.html

Googleのキーワード検索結果をRSSで読む!アラート機能があるそうです。

Googleの肩に乗って、キーワード検索結果をRSSで取得しましょう。


http://news.google.com/news?hl=ja&ned=us&ie=UTF-8&oe=UTF-8&output=rss&q=

asklifeを調べたいなら

http://news.google.com/news?hl……&q=asklife

とすればいいわけです。

検索演算子も使えるそうです。q=以降につければ良いとのこと。
「site:」や「allintitle:」など

検索演算子の詳しいことはここ
http://asklife.info/archives/3170

参考記事

多数のサイトから「特定の語句を含むニュース」だけを抽出してRSS取得する方法 : ライフハッカー[日本版].

Webサービス制作の参考に。デザインの基礎的なTips

ノンデザイナーのための配色理論.

こちらがスライド内で紹介されていた配色アプリ

http://hue360.herokuapp.com/

もうひとつ

少ない手間と知識でそれなりに見せる、ズルいデザインテクニック.

こちらもスライド内で紹介されていたサービス

http://subtlepatterns.com

http://colorzilla.com/gradient-editor

http://compass-style.org

情報収集の中毒性

情報収集の中毒性に苛まれています。

FacebookやらTwitterやらはてなブックマークやらYahoo!NewsBizやら日経新聞やらビューン(雑誌)やらテレビやら。

何が良くて、何が必要で、何を得ているべきなのか。

そんな悪循環から抜け出せなくなってやしませんか。

私は、抜けだしたい。

情報収集をしなくてもよくなればいい。

その手段を考えて、作り上げれば良いのだ。

社長は秘書にいろいろなことをまかせてますよね。

そういったことが出来ればいいんだ。

Older posts

© 2017 asklife

Theme by Anders NorenUp ↑