�����������:
Webstemmer �ϥ˥塼�������Ȥ��鵭����ʸ�ȵ����Υ����ȥ��ץ쥤��ƥ����ȷ�����
��ưŪ����Ф��륽�եȥ������Ǥ���
�����ȤΥȥåץڡ����� URL ����Ϳ���������ư�Dz��Ϥ��뤿�ᡢ
�ͼ�β����ϤۤȤ��ɬ�פ���ޤ���
ư����Ϥ�������
����:
�˥塼�������ȤΥ���ƥ�Ĥϳƹ�����ˡ�ˤ���ݸ��Ƥ��ޤ���
����Τ��륳��ƥ�Ĥ���Ĥʤ������ۤ��뤳�Ȥ϶ؤ����Ƥ��ޤ���
���Υ��եȥ������ϥ˥塼�������ȤΥƥ����Ȥ��Ѥ�ʬ�Ϥ�����Ū��
���줿��Τǡ���ˡ�ʥ���ƥ�����ۤ��Ĺ���뤿��Τ�ΤǤϤ���ޤ���
�˥塼�������Ȥ���ƥ����Ȥ��������ȡ��դĤ���ʸ�Τۤ��ˡ�
���̤ι����ʥӥ���������ѤΥ�ʤɤ⺮���äƤ��ޤ��ޤ���
�ޤ������ȥ�ˤĤ��Ƥ⡢���٤ƤΥ����Ȥ�
���ߤΤȤ������Ѹ쥵���ȤǤϡ����褽 90% �Υڡ�������
�������ƥ����Ȥ���ФǤ��Ƥ��ޤ�:
webstemmer-dist-0.7.1.tar.gz (��Python 2.4�ʾ�)
����ʤ�?
<title> �����ǰϤޤ줿��Τ�
�����Υ����ȥ�ˤʤäƤ���Ȥϸ¤�ޤ����Τ褦�� HTML ��ͼ�Dz��Ϥ��ơ�
����ɽ���ʤɤ�ȤäƤ���������������ʬ���äƤ���Τ����ݤǤ���
�ޤ����˥塼�������Ȥˤ�äƤϲ������ΰۤʤ�쥤�����Ȥ�ȤäƤ���Ȥ���������ޤ���
Webstemmer �Ϥ��Τ褦�ʥ˥塼�������ȤΥ쥤�����Ȥ�ư��ʬ�Ϥ���
������ʸ�ȥ����ȥ������ȤäƤ����褦�ˤ��ޤ� (������Ϥ�����)��
���ߤΤȤ�����������ˡ�ϥ�㡼�ʥ˥塼�������Ȥ��Ф��Ƥ��ޤ����äƤ��ޤ���
�ޤ������������θ�����ò������μ���ȤäƤ��ޤ���
ͣ����μ��ϰ�̣�Τ���ʸ���Ȥ����Ǥʤ�ʸ�� (�������ʤɡ����������ʪ��) �ζ��̤Ǥ���
���Τ��ᡢ���Υ��եȥ����������ܸ졢�Ѹ�ɤ���Υ����ȤǤ�ư��ޤ���
| ������̾ | ��Хڡ�����/�����ڡ����� (������ʿ��) |
|---|---|
| New York Times | 488.8/552.2 (88%) |
| Newsday | 373.7/454.7 (82%) |
| Washington Post | 342.6/367.3 (93%) |
| Boston Globe | 332.9/354.9 (93%) |
| ABC News | 299.7/344.4 (87%) |
| BBC | 283.3/337.4 (84%) |
| Los Angels Times | 263.2/345.5 (76%) |
| Reuters | 188.2/206.9 (91%) |
| CBS News | 171.8/190.1 (90%) |
| Seattle Times | 164.4/185.4 (89%) |
| NY Daily News | 144.3/147.4 (98%) |
| International Herald Tribune | 125.5/126.5 (99%) |
| Channel News Asia | 119.5/126.2 (94%) |
| CNN | 65.3/73.9 (89%) |
| Voice of America | 58.3/62.6 (94%) |
| Independent | 58.1/58.5 (99%) |
| Financial Times | 55.7/56.6 (98%) |
| USA Today | 44.5/46.7 (96%) |
| NY1 | 35.7/37.1 (95%) |
| 1010 Wins | 14.3/16.1 (88%) |
| �� | 3829.1/4349.2 (88%) |
���ܸ쥵���ȤǤϡ�����Ū����ǽ��¬�ꤷ�Ƥ��ޤ��� �ʲ��Τ褦�ʥ����Ȥ�������ư�����Ȥ��狼�äƤ��ޤ�:
Webstemmer ��Ĥ��ä��ƥ�������Фϰʲ��Τ褦�ʥ��ƥåפˤʤ�ޤ�:
1. ����� 2. �Υ��ƥåפ�ɬ�פʤΤϺǽ�� 1������Ǥ��� �ҤȤ��ӥ����ȤΥ쥤�����Ȥ�ؽ����Ƥ��ޤ��С� ���Ȥϥ쥤�����Ȥ��礭���ѹ������ޤ�Ʊ���ؽ���� (�֥ѥ�����ե�����פȸƤФ�ޤ�) ���Ȥ��ޤ���
Webstemmer �ˤ� 4�ĤΥץ�����ब�ޤޤ�Ƥ��ޤ�:
textcrawler.py (web ��������)
analyze.py (�쥤������ʬ�ϥץ������)
extract.py (�ƥ�������Хץ������)
urldbutils.py (URLDB���ץ������)
html2txt.py (��ñ�ʥƥ��������)
�����ΥС������� webstemmer �� web��������� �쥤������ʬ��/�ƥ�������Хץ�����ब���β����Ƥ��ޤ������� webstemmer-0.5 ����Ϥ���餬ʬΥ����ޤ�����
���륵���ȤΥ쥤�����Ȥ�ؽ�����Ȥ��ϡ�
�ޤ��ǽ�ˡּ�פȤʤ�ڡ������Ĥ���������ɬ�פ�����ޤ���
textcrawler.py �Ϥ��Τ���δʰץ�������Ǥ���
���Υ�������ϺƵ�Ū�˥�ɤꡢ�������ο���
(�ǥե���ȤǤ� 1 -- �Ĥޤꡢ���Ϥ����ڡ����ˤ���ƥ�� 1��������ɤä�����) ��
��ã����ޤǤΥڡ����٤ƥ���������ɤ��ޤ���
(�оݤȤʤ륵���ȤΥڡ������������)
$ ./textcrawler.py -o nikkei http://www.nikkei.co.jp/
Writing: 'nikkei.200509182149.zip'
Making connection: 'www.nikkei.co.jp'...
...
����������ɤ��줿�ڡ����ˤϥ����ॹ����פ��Ĥ���졢 �ҤȤĤ� zip�ե�����ˤޤȤ����¸����ޤ��� ���Υ�����������γƥե�����̾�ˤϥ������뤬�Ԥ�줿�����������ॹ����פȤ��� ��ưŪ���ɲä���ޤ������� .zip �ե�����ϡ����ƥå� 2. �ˤ����� �쥤�����ȥѥ�����γؽ��ѤȤ��Ƥ⡢���ƥå� 4. �ˤ����� �ºݤΥƥ�������и��ڡ����Ȥ��Ƥ���Ѥ��뤳�Ȥ��Ǥ��ޤ���
(��¸���줿 zip�ե��������˴ޤޤ�Ƥ�������ڡ���������)
$ zipinfo nikkei.200509182149.zip
Archive: nikkei.200509182149.zip 497470 bytes 105 files
-rw---- 2.0 fat 55212 b- defN 18-Sep-05 21:57 200509182149/www.nikkei.co.jp/
-rw---- 2.0 fat 2475 b- defN 18-Sep-05 21:57 200509182149/www.nikkei.co.jp/nikkeiinfo/
-rw---- 2.0 fat 10194 b- defN 18-Sep-05 21:57 200509182149/www.nikkei.co.jp/privacy/
...
�Ĥ��ˡ����ƥå� 1. ������줿
.zip �ե������ analyze.py (�쥤������ʬ�ϥץ������) ���Ϥ��ޤ���
���Υץ������ϡ�.zip �ե�����˴ޤޤ�Ƥ��� HTML �ե�����٤Ʋ��Ϥ���
�ؽ����줿�ѥ������ɸ����Ϥ�ɽ�����ޤ�������ɸ����Ϥ�ե������
������쥯�Ȥ���С��ؽ������쥤�����ȤΥѥ��������¸�Ǥ��ޤ�:
(���������ڡ����Υ쥤�����ȥѥ������ؽ�����)
$ ./analyze.py nikkei.200509182149.zip > nikkei.pat
Opening: 'nikkei.200509182149.zip'...
Added: 1: 200509182149/www.nikkei.co.jp/
Added: 2: 200509182149/www.nikkei.co.jp/nikkeiinfo/
Added: 3: 200509182149/www.nikkei.co.jp/privacy/
Added: 4: 200509182149/www.nikkei.co.jp/ad/mm/
...
�ޥ������ǽ�ˤ���ޤ������̾� 100�ڡ����ۤɤΥǡ�����ؽ������硢���褽 2��3ʬ������ޤ��� ���줬 1000�ڡ����ˤʤ�ȡ������֤� 2��3���֤ˤʤ�ޤ��� (�����֤ϥڡ�������2������㤷�Ƥ��뤿�ᡢ�ؽ�����ڡ������� 2�ܤˤʤ�гؽ����֤� ��4�ܤˤʤ�ޤ���) �������ȤäƤ��� Xeon 2GHz �Υޥ���Ǥ� 300�ʾ�Υڡ�����ؽ�����Τ� 30ʬ���餤������ޤ�����
�ʤ������Υѥ�����ϥƥ����ȷ�������¸����Ƥ��ꡢ ���Ȥǿͼ���Խ����뤳�Ȥ��ǽ�Ǥ� (�ѥ�����ե�����ι�¤)��
���θ塢����줿�ѥ������Ȥäƥƥ�������Ф�Ԥ�����ˡ� �⤦���٥�����������餻�ޤ��� (��Ȥγؽ��˻Ȥä� .zip �ե����뤽�Τ�Τ����ƥ�������ФϤǤ��ޤ����� �����ǤϿ�����ˤޤä������Ƥΰۤʤ뿷���ʥڡ��������������Ȳ��ꤷ�ޤ���)
(��Ф����� HTML �ե�������������)$ ./textcrawler.py -o nikkei http://www.nikkei.co.jp/ Writing: 'nikkei.200510291951.zip' Making connection: 'www.nikkei.co.jp'... ...(��¸���줿 zip�ե��������˴ޤޤ�Ƥ�������ڡ���������)
$ zipinfo nikkei.200510291951.zip Archive: nikkei.200510291951.zip 518951 bytes 103 files -rw---- 2.0 fat 56325 b- defN 29-Oct-05 19:51 200510291951/www.nikkei.co.jp/ -rw---- 2.0 fat 2475 b- defN 29-Oct-05 19:51 200510291951/www.nikkei.co.jp/nikkeiinfo/ -rw---- 2.0 fat 10194 b- defN 29-Oct-05 19:51 200510291951/www.nikkei.co.jp/privacy/ ...
���ơ������ޤǤ������˳ؽ������ѥ������Ȥäơ� �����˼��������ڡ���������ʸ����ФǤ��ޤ�:
(�ѥ�����ե����� nikkei.pat ��Ȥä���ʸ�ȥ����ȥ����Ф���euc-jp ����¸����)$ ./extract.py -Ceuc-jp nikkei.pat nikkei.200510271344.zip > nikkei.txt Opening: 'nikkei.200510291951.zip'...
��ʸ�ȥ����ȥ�ξ���ϥץ쥤��ƥ����ȷ�����
���줾��Υڡ����϶��ԤǶ��ڤ�졢�ƥڡ�������Ƭ�ˤ�ɬ��
"
���ϥƥ����ȤγƹԤ� HTML �β��� (
������������ι�ˤ������� tar.gz �ե���������������ɤ���
Ÿ�����Ƥ������������Υץ�������ư�����ˤ�
Python 2.4 �ʾ� ��ɬ�פǤ���
�ץ�����༫�ΤϤ����Υ�����ץȥե�����ʤΤ����̤ʥ��ȡ����ɬ�פʤ���
���������뤫��ñ��
�ۤȤ�ɤΥ˥塼�������ȤǤϡ��ġ��ε����� URL �ϰ�դǤ���
�������äơ��̾���ټ������� URL �����٤ȼ�������ɬ�פ�����ޤ���
�������٤� URL ��ȥ����뤹����ˡ�Ȥ��ơ�
ɬ�����ϥե�����̾�λ��꤬ɬ�פǤ������Υե�����̾�ˤϥ����ॹ�����
(
�̾���ϥե�����ˤ�
�ʤ���
�����Ĥ��Υ��ץ��������˵���Ū�ʤ�Τǡ��������ѹ�����ˤ�
ư��������Ƥ���ɬ�פ�����ޤ���
�ѥ�����ե�������Ϥ���
URL �������ʸ�ȥ����ȥ롢�ޥå������ѥ�����줾��ɸ����Ϥ�ɽ�����ޤ���
URLDB ��Ȥ��ˤĤ�Ƥ��Υե����륵������ñĴ���ä��ޤ�����
���Υ����Ⱦ�Τ��� URL ���ɤ��ˤ⸫���ʤ��ʤäư���λ��֤��вᤷ����硢
���� URL �Ϥ⤦���٤ȸ���ʤ� (�������äƵ������Ƥ���ɬ�פ�ʤ�) �Ȳ��ꤷ�Ƥ�褤�Ǥ��礦��
URLDB ����¸����Ƥ���� URL �ˤϡ��֤��� URL ��Ǹ�˸�������פ���Ͽ����Ƥ��ޤ���
2�ĤΥ⡼�ɤΤ�����ɽ��(Display��
(������ MIT/X �饤���Ǥ�)
Copyright (c) 2005-2009 Yusuke Shinyama <yusuke at cs dot nyu dot edu>
Permission is hereby granted, free of charge, to any person
obtaining a copy of this software and associated documentation
files (the "Software"), to deal in the Software without
restriction, including without limitation the rights to use,
copy, modify, merge, publish, distribute, sublicense, and/or
sell copies of the Software, and to permit persons to whom the
Software is furnished to do so, subject to the following
conditions:
The above copyright notice and this permission notice shall be
included in all copies or substantial portions of the Software.
THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY
KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE
WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR
PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR
COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR
OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE
SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
Last Modified: Mon Jun 15 19:42:16 JST 2009
nikkei.txt ����¸����Ƥ��ޤ���
$ cat nikkei.txt
!UNMATCHED: 200510291951/www.nikkei.co.jp/ (�ɤΥѥ�����ˤ�ޥå����ʤ��ڡ���)
!UNMATCHED: 200510291951/www.nikkei.co.jp/nikkeiinfo/ (�ɤΥѥ�����ˤ�ޥå����ʤ��ڡ���)
!UNMATCHED: 200510291951/www.nikkei.co.jp/privacy/ (�ɤΥѥ�����ˤ�ޥå����ʤ��ڡ���)
...
!MATCHED: 200510291951/www.nikkei.co.jp/news/retto/20051028c6b2802a28.html (�ޥå������ڡ���)
PATTERN: 200509182149/www.nikkei.co.jp/news/retto/20050916c3b1604m16.html (�ޥå������쥤�����ȥѥ�����̾)
TITLE: ���μ���Ψ3.8��˲�����ͭ�������Ψ��������� (��������̾)
MAIN-7: ��̳�ʤ�28����ȯɽ����2005ǯ7��9��λ��δ�������Ψ�ʸ����͡ˤ� (��ʸ�ƥ�����)
3.8�����ǯƱ����1.0�ݥ�����㲼����������ϫƯ�ɤ�Ʊ��ȯɽ����9���
ͭ�������Ψ����θ������������ο�����ä����ʵ��δˤ䤫��
�������طʤˡ���Ǥ���Ѥβ������ʤ�Ǥ��롣
...
MAIN-7: ����εῦ�ԣ���������ε�ͳ���ͭ�������Ψ�ʵ���Ĵ���͡ˤ� (��ʸ�ƥ�����)
������������0.02�ݥ���Ⱦ徺��0.87�ܤ��ä���
SUB-9: (10/29)���μ���Ψ3.8��˲�����ͭ�������Ψ��������� (����ʳ��Υƥ�����)
SUB-9: (10/29)������ء���̱���������ֺ¤β�����ͥå��ۿ� (����ʳ��Υƥ�����)
SUB-9: (10/29)���ڡ������������ѥ��եȣ��Ҥ���Ȥ��ܵҳ���� (����ʳ��Υƥ�����)
...
SUB-9: (10/21)�������Ź�ξ�����Ԥ˽��Ź�������ǹ����� (����ʳ��Υƥ�����)
SUB-9: (10/21)�ʥ��ȥ饤�ɡ������Ф���Ψ���ܤλ糰���̣ţij�ȯ (����ʳ��Υƥ�����)
SUB-9: (10/21)��ɲ���λ���������¤���פ˰��ߡ�����ˤ����� (����ʳ��Υƥ�����)
!MATCHED: 200510291951/www.nikkei.co.jp/news/retto/20051028c6b2802p28.html (�ޥå������ڡ���)
PATTERN: 200509182149/www.nikkei.co.jp/news/retto/20050916c3b1604m16.html (�ޥå������쥤�����ȥѥ�����̾)
...
!MATCHED" �ޤ��� "!UNMATCHED" �ǻϤޤ�إå��ȡ����Υڡ��������̻�
(����� .zip ������������Υե�����̾�Ǥ�) ���Ĥ��Ƥ��ޤ���
���Υڡ��������ꤵ�줿�ѥ�����Τɤ�ˤ�ޥå����ʤ����Ϥ���ǽ����Ǥ������ޥå���������
"!MATCHED" �Τ��Ȥˡ��ѥ�����̾��ɽ�� "PATTERN:" ��³����
���Τ��Ȥ���̾ ("TITLE") ��
��ʸ�ƥ����� ("MAIN") �����Ϥ���ޤ���
<p> �ޤ��� <br>) �ˤ������ä�
���ڤ��Ƥ��ꡢ ���Ȥ��о����� "MAIN" ��ʣ������Τ���ʸ��
�����Ĥ��������ʬ����Ƥ��뤳�Ȥ��Ƥ��ޤ���
�ڡ�����γƹԤϤ��ʤ餺
"TITLE:"��"MAIN-n:" ���뤤�� "SUB-n:"
�Τ褦��
��ʸ������ե��٥åȤΥե�����ɤǻϤޤäƤ��ޤ� (�����Ǥ��ɤߤ䤹���Τ���˰տ�Ū�˲��Ԥ�������Ƥ��ޤ�)��
���Τ��� perl �� grep �ʤɤΥ��ޥ�ɤǴ�ñ��ɬ�פ���ʬ��Ȥ�������Ȥ��Ǥ��ޤ���
"SUB-n:" �ȼ�����Ƥ���Ԥϡ�
��������̾�Ǥ���ʸ�Ǥ�ʤ��������Ū�ʥƥ����Ȥ�Ƚ�Ǥ��줿��ʬ�Ǥ�
(n ���ͤϤ�����ʬ�ˤĤ���줿��������� ID �ǡ�����ϥѥ����Ȥ��Ѥ��ޤ�)��
���ȡ���
./analyze.py �� ./extract.py ��
�����פ���� ok �Ǥ������Ȥϥ����륹����ץȤ�� cron �˻ųݤ���ʤ겿�ʤꤷ�Ƥ���������
textcrawler.py (web��������)textcrawler.py ������Υ����Ȥ�Ƶ�Ū�˥������뤷��
�ƥ����ȥե����� (HTML�ե�����) �Τߤ���ñ�� web��������Ǥ���
web ���Τ��оݤȤ�����������ˤϸ����Ƥ��ޤ����浬�����٤Υ����Ȥ���
100��10000 ���٤Υڡ������������Τ˸����Ƥ��ޤ���
����ϼ�������ʣ���Υڡ�����ҤȤĤ� zip �ե�����ˤޤȤ����¸���ޤ���
Mozilla �����Υ��å����ե�����䡢persistent HTTP��³��gzip���̤ݡ��Ȥ��Ƥ��ޤ���
�оݥ����Ȥؤ���٤�ʤ�٤����餹����ˡ��Ƶ��ο��٤䥯�����뤹�� URL �Υѥ������
�桼������̩�˥���ȥ�����Ǥ���褦�ˤʤäƤ��ꡢ�ޤ���URL ��
�ǡ����١��� (Berkeley DBM) ����¸���Ƥ������Ȥˤ�ꡢ���ټ������� URL ��
����Υ�������Ǥϼ������ʤ��褦�����ꤹ�뤳�Ȥ�Ǥ��ޤ���
��ǽ�ʤ����� persistent ��³�� gzip ����Ѥ���robots.txt �ˤ�ɬ�������ޤ���
�ʤ���HTTP��³�Ϻǽ�˻��ꤷ���ۥ��Ȥˤ����Ԥ鷺��¾�Υ����Ȥ˸��������
(���Υ����Ф�Ʊ���IP���ɥ쥹���IJ��ۥ����ФǤʤ�������) ���٤�̵�뤵��ޤ���
textcrawler.py �ˤϤ��Τ���ε�ǽ�Ȥ��� -U���ץ����
(URLDB �λ���) ������ޤ���URLDB �ե�����̾����ꤹ��ȡ�textcrawler.py ��
���ټ������� URL �� md5�ϥå����ͤȡ����� URL �ؤΥ��Ǹ�˸��������
Berkeley DBM �����Υǡ����١����˵�Ͽ���ޤ� (���ꤵ�줿�ե����뤬�ʤ�����
��ưŪ�˺�������ޤ�)������ URL ��������褦�Ȥ���ݡ����줬���Ǥ� URLDB �˵�Ͽ����Ƥ����
���Υڡ�������¸���ʤ����ᡢ�����Ȥ��� 2���ܰʹߤΥ�������κݤ�ɬ�פʼ¹Ի��֤�
�ͥåȥ���Ӱ�������˺︺���뤳�Ȥ��Ǥ��ޤ���
cron �ʤɤ�Ȥäơ���������������֤��������餻����ϡ�����ϤȤ���ͭ�ѤǤ���
(������ URLDB �ϼ������� URL �٤Ƶ�Ͽ���Ƥ������ᡢ���֤����ĤˤĤ�Ƥ��Υե������
�礭���ʤäƤ����ޤ����礭���ʤꤹ���� URLDB ����������ˤ�
urldbutils.py���ޥ�ɤ�ȤäƤ���������)
-a (Accept) �� -j (reJect) �� 2�ĤΥ��ץ�����Ѱդ���Ƥ��ޤ���
�����ˤϼ������٤� (���뤤�ϵ��ݤ��٤�) URL �˥ޥå���������ɽ������ꤷ�ޤ���
�����Υ��ץ��������ޥ�ɥ饤��ǻ��ꤵ�줿���Ƚ�ꤵ����
URL �Ϻǽ�˥ޥå������ѥ�����ˤ������äƼ������뤤�ϵ��ݤ���ޤ�
(�ɤΥѥ�����ˤ�ޥå����ʤ����ϡ���ưŪ�˵��ݤȤߤʤ���ޤ�)��
�ʤ����ɤ���Υ��ץ�������ꤷ�ʤ����ϡ��ǥե���ȤǼ�ưŪ�˥ȥåץڡ����� URL ��
�ץ�ե��å����Ȥ��Ƥ�� URL �٤Ƽ�������jpg��gif �ʤɤ����餫�˥ƥ����ȤǤʤ�
URL ����ݤ���褦������ˤʤäƤ��ޤ���(-a ���뤤�� -j ��
�ҤȤĤǤ���ꤷ����硢�����Υǥե���ȤϻȤ��ޤ���Τ����դ��Ƥ�������)
��ʸ
$ textcrawler.py -o ���ϥե�����̾ [���ץ����] ����URL ...
YYYYMMDDHHMM �η���) �ȳ�ĥ�� .zip ����ưŪ�ˤĤ����ޤ���
�����ॹ����פϤ��Υ��ޥ�ɤ��¹Ԥ��줿�������ͤ�����ޤ���
�����ͤϥ��ޥ�ɥ饤�� -b ���ץ������ѹ��Ǥ��ޤ���
������:
(http://www.asahi.com/ �ϥڡ����Ȥ��ƺƵ����� 2 �ǥ������뤷����̤� asahi.*.zip ����¸���롣
�ǥե���Ȥ�ʸ�������ɤȤ��� euc-jp ����Ѥ���)
$ textcrawler.py -o asahi -m2 -c euc-jp http://www.asahi.com/
(http://www.boston.com/news/globe/ �ϥڡ����Ȥ��ƥ������뤹�뤬��
"http://www.boston.com/news/" �ʲ��Υڡ����⥯�����뤹�롣
URLDB �ե�����Ȥ��� boston.urldb ����Ѥ���)
$ textcrawler.py -o boston -U boston.urldb -a'^http://www\.boston\.com/news/' http://www.boston.com/news/globe/
���ץ����
-o ���ϥե�����̾
-b �ǻ��ꤷ��ʸ����) ��
��ĥ�� .zip ����ưŪ���ɲä���ޤ���
-m �Ƶ�Ū��������κ��翼��
-k cookie�ե�����̾
-c �ǥե���Ȥ�ʸ��������
euc-jp", "utf-8" �ʤ�)
����ꤷ�ޤ���ʸ�������ɤμ�ưǧ����ǽ�Ϥ���ޤ���
-a ���Ĥ�������ɽ���ѥ�����
-j ���ץ����ȤȤ��ʣ���Ļ���Ǥ���
���ꤵ�줿���Ƚ�ꤵ��ޤ���
�������äơ����ץ�������ꤹ����֤��Ѥ����ư��Ѥ��ޤ���
-j �ػߤ�������ɽ���ѥ�����
-a ���ץ����ȤȤ��ʣ���Ļ���Ǥ���
���ꤵ�줿���Ƚ�ꤵ��ޤ���
�������äơ����ץ�������ꤹ����֤��Ѥ����ư��Ѥ��ޤ���
�ǥե���ȤǤϡ�jpg, jpeg, gif, png, tiff, swf, mov, wmv, wma, ram, rm, rpm, gz, zip, class ��
��ĥ�Ҥ��� URL �Ϥ��٤ƶػߤ���Ƥ��ޤ���
-U URLDB�ե�����̾
-b �����ॹ�����ʸ����
200510291951/www.example.com/..." �Τ褦�ʷ��ǤĤ����ޤ���
���Υ��ץ�������ꤷ�ʤ��ȡ������ॹ����פϸ��ߤλ���ˤ�ȤŤ���
YYYYMMDDHHMM �Τ褦�ʷ����Ǽ�ưŪ�˷����ޤ���
-i index.html��̾��
/" �ǽ���äƤ����硢�����ǻ��ꤷ��ʸ�����
URL �������˼�ưŪ���ɲä��ޤ����ǥե���ȤǤ϶�ʸ���� (�ɲä��ʤ�) �ˤʤäƤ��ޤ���
�����Ȥˤ�äƤϡ�"http://host/dir/" �� "http://host/dir/index.html" ��
�̡��Υڡ����Ȥߤʤ���뤳�Ȥ�����ޤ��Τǡ����դ�ɬ�פǤ� (Apache �� mod_dir �ʤ�)��
-D �ٱ����
-T �����ॢ���Ȼ���
-L linkinfo�ե�����̾
<a> ����) �˴ޤޤ��
�����ƥ����Ȥ�Ʊ���˵�Ͽ���Ƥ����ޤ����������뤬����ä����ȡ�
���ξ���� "linkinfo" �Ȥ���̾���� .zip �ե��������
��¸����ޤ������ξ���ϥڡ�������̾��ʬ�Ϥ��뤿��� analyze.py
�ˤ�äƻ��Ѥ���ޤ������Υ��ץ����Ϥ��Υե�����̾��
"linkinfo" ���ѹ����뤿��Τ�Τǡ�
�����ͤ��ʸ����ˤ���ȥ����ƥ����Ȥ���¸����ޤ���
-d
analyze.py (�쥤������ʬ�ϥץ������)analyze.py �� textcrawler.py ����������
HTML�ڡ�����«���Ȥ˥쥤�����Ȥ�ʬ�Ϥ����ؽ������ѥ�����ե������ɸ����Ϥ�ɽ�����ޤ���
���Ѥ���ڡ����ο��ˤ�äơ������֤Ͽ����֤ˤ�ڤ֤��Ȥ�����ޤ���
(�ʤ������Υץ������� Psyco ��ȤäƤ��������̾�������ǡ�
���ΤȤ����ޤä������̤��Ǥޤ���)
analyze.py �����Ϥ���ѥ�����ե�������γƥѥ�����ˤϡ�
�ڡ������ʸ�����ʤɤ��θ���ơ����Υѥ������ͭ���٤�ɽ���֥������פ��Ĥ��Ƥ��ޤ���
�դĤ������Υץ������Ϥ��٤ƤΥڡ���������ʸ��ȯ�����褦�Ȥ��ޤ�����
�ºݤˤϡ֤ɤΥڡ������������פޤǤ�Ƚ��Ǥ��ޤ���
�ꤤ�Υ����ʡ����ɼԤ�������ʹ�Ҥγ��פʤɤϤդĤ��̤Υ쥤�����Ȥǽ�Ƥ��ꡢ
�������ӽ����������ϰ����Υѥ������������ɬ�פ�����ޤ���
�����ˤ⡢�������ä������ʳ��Υڡ����Ͽ������ʤ����������äƤ����Ѥ�
�ѥ�����Υ��������㤯�ʤ��礬¿���Τǡ����Τ褦�ʥڡ�����
analyze.py �� -S ���ץ�����Ĥ��äơ�
�������ʲ��Υ��������ĥѥ��������Ϥ��ʤ��褦�ˤ��뤳�Ȥ�
�ӽ����뤳�Ȥ��Ǥ��ޤ� (�������ʹ�ˤ�äƺ��Ϥ���ޤ���)��
����˺٤������塼�˥�Ԥʤ��������ϡ��ѥ�����ե������
�ƥ����ȥ��ǥ����Ǥ������Խ����뤳�Ȥ�Ǥ��ޤ�
(�ѥ�����ե�����ι�¤�Ȥ��Ƥ�������)��
��ʸ
$ analyze.py [���ץ����] ���ϥե�����̾ ... > �ѥ�����ե�����̾
textcrawler.py �Ǽ�������
zip�ե�����̾����ꤷ�ޤ������ϥե������ʣ�����ꤹ�뤳�Ȥ��Ǥ��ޤ���
ʣ����ˤ錄�륯������η�� (Ʊ�쥵���Ȥ��������Ѥ��Ƽ���������̤ʤ�) ��
�ȤäƳؽ��������Ȥ��������Ǥ���
������:
(asahi.200510120801.zip �� asahi.200510220801.zip �� 2�ĤΥե������
��Ǽ����Ƥ���ڡ�����Ȥäƥ쥤�����Ȥ�ؽ�������̤� asahi.pat ����¸����)
$ analyze.py asahi.200510120801.zip asahi.200510220801.zip > asahi.pat
wget �ʤɤǺƵ�Ū�˼��������ڡ�����Ȥ������Ȥ��ϡ�
�ʲ��Τ褦�ˤ��Ƽ��������ե�����̾�ΰ�����ɸ�����Ϥ���Ϳ���Ƥ��ޤ�:
���ξ��Ϥ��Υǥ��쥯�ȥ깽¤������������
$ find 200510120801/ -type f | ./analyze.py - linkinfo > asahi.pat
textcrawler.py �����Ϥ��� .zip �ե������Ʊ���褦�ˡ�
�����ॹ�����/URL �ι�¤�Ƥ���ɬ�פ�����ޤ���
���ץ����
-c �ǥե���Ȥ�ʸ��������
euc-jp", "utf-8" �ʤ�)
����ꤷ�ޤ���ʸ�������ɤμ�ưǧ����ǽ�Ϥ���ޤ���
-a ���Ĥ�������ɽ���ѥ�����
-j ���ץ����ȤȤ��ʣ���Ļ���Ǥ���
���ꤵ�줿���Ƚ�ꤵ��ޤ���
�������äơ����ץ�������ꤹ����֤��Ѥ����ư��Ѥ��ޤ���
-j �ػߤ�������ɽ���ѥ�����
-a ���ץ����ȤȤ��ʣ���Ļ���Ǥ���
���ꤵ�줿���Ƚ�ꤵ��ޤ����������äơ����ץ�������ꤹ����֤��Ѥ����ư��Ѥ��ޤ���
�ǥե���ȤǤϡ�Ϳ����줿 zip �ե�����˴ޤޤ�Ƥ��뤹�٤ƤΥե������Ĥ��ä�
�쥤�����Ȥ�ʬ�Ϥ��ޤ���
-t ���饹����Τ�������
-T ��̾Ƚ��Τ�������
-S ��������������
-L linkinfo�ե�����̾
textcrawler.py �ϤդĤ� zip �������������
�ƥڡ����ؤΥ�Υ����ƥ����Ȥ�Ͽ���� "linkinfo" �Ȥ����ե������
��¸���ޤ������⤷���Υե�����̾���ǥե���ȤȰ�äƤ�����˻��ꤷ�ޤ���
�ʤ���������������� "linkinfo" �ե����뤬¸�ߤ��ʤ�����
���Υ��ץ����˶�ʸ�������ꤹ��ȡ�analyze.py �ϼ�����
�����ƥ����Ȥ���Ϥ��褦�Ȥ��ޤ���������ˤ��쥤�����Ȥ�ʬ��®�٤Ϥ�����٤��ʤ�Τǡ�
�ʤ�٤� "linkinfo" ��Ȥä��ۤ��������Ǥ��礦��
-m max_samples
-m 5 ����ꤹ�뤳�Ȥ�
�����֤���Ⱦʬ�ˤʤä����Ȥ�����ޤ�����
-d
extract.py (�ƥ�������Хץ������)��ʸ
$ extract.py [���ץ����] �ѥ�����ե�����̾ ���ϥե�����̾ ... > ���ϥƥ�����
������:
(�ѥ�����ե����� asahi.pat ��Ȥäơ�asahi.200510220801.zip �˳�Ǽ����Ƥ���ڡ�������
�ƥ����Ȥ���Ф���shift_jis ������ asahi.200510220801.txt ����¸����)
$ extract.py -C shift_jis asahi.pat asahi.200510220801.zip > asahi.200510220801.txt
���ץ����
-C ���ϥƥ����Ȥ�ʸ��������
euc-jp" �ʤ�) ����ꤷ�ޤ���
�ǥե���Ȥ� utf-8 �Ǥ���
-c �ǥե���Ȥ�ʸ��������
euc-jp", "utf-8" �ʤ�)
����ꤷ�ޤ���ʸ�������ɤμ�ưǧ����ǽ�Ϥ���ޤ���
-a ���Ĥ�������ɽ���ѥ�����
-j ���ץ����ȤȤ��ʣ���Ļ���Ǥ���
���ꤵ�줿���Ƚ�ꤵ��ޤ���
�������äơ����ץ�������ꤹ����֤��Ѥ����ư��Ѥ��ޤ���
-j �ػߤ�������ɽ���ѥ�����
-a ���ץ����ȤȤ��ʣ���Ļ���Ǥ���
���ꤵ�줿���Ƚ�ꤵ��ޤ����������äơ����ץ�������ꤹ����֤��Ѥ����ư��Ѥ��ޤ���
�ǥե���ȤǤϡ�Ϳ����줿 zip �ե�����˴ޤޤ�Ƥ��뤹�٤ƤΥե����뤫��
��Ф����ߤޤ���
-t �ѥ���������٤Τ�������
!UNMATCHED" �����Ϥ���ޤ���
�����ͤϤ��ޤ��ѹ�����ɬ�פϤ���ޤ���
-S
!UNMATCHED" �ˤʤäƤ��ޤ��ޤ���
-T DiffScore��������
-d
urldbutils.py (URLDB���ץ������)urldbutils.py �Ϥ��ξ�������Ѥ��� URLDB �ե����뤫��
������������ʤ��ʤä� URL ��������DBM ��ƹ��ۤ��뤿��Υġ���Ǥ���
��ʸ
$ urldbutils.py {-D | -R} [���ץ����] �ե�����̾ [��ե�����̾]
-D) ���ƹ���(Reorganize��-R) ����
�ɤ��餫������ɬ�פ�����ޤ� (ɽ����ǽ�ϤۤȤ�ɥǥХå��ѤǤ�)��
DBM ��ƹ��ۤ�����ϡ�������2�ĤΥե�����̾����ꤷ�ޤ���
(�ʤ��������Τ��ᡢ�������ե����뤬���Ǥ�¸�ߤ��Ƥ����礳�Υ��ޥ�ɤ�ư��ޤ���)
������:
(myurldb �ե��������� 10���ְʾ塢�ܷ⤵��Ƥ��ʤ� URL ��������
������URLDB �ե����� myurldb.new ��Ĥ��롣
���θ塢��ե����������)
$ urldbutils.py -R -t 10 myurldb.new myurldb
$ mv -i myurldb.new myurldb
mv: overwrite `urldb'? y
���ץ����
-D
-R
-t ���ץ����λ��꤬ɬ�פǤ���
-t ����
-v
-R�⡼�ɤǺ���������ܤ٤�ɽ�����ޤ���
html2txt.py (��ñ�ʥƥ��������)html2txt.py �ϥѥ����������Ȥ�ʤ�����ץ��
html ����Υƥ�������Хġ��� (�Ȥ������ϥ�������ġ���) �Ǥ���
����Ϥ������٤Ƥ� HTML ���������ϥե������椫��Ȥ�����ޤ���
�ޤ��� <script>...</script> �ޤ���
<style>...</style> �����ǰϤޤ�Ƥ���
javascript �䥹�����륷���Ȥ�������ޤ���
��ʸ
$ html2txt.py [���ץ����] ���ϥե�����̾ ... > ���ϥե�����̾
������:
$ html2txt.py index.html > index.txt
���ץ����
-C ���ϥƥ����Ȥ�ʸ��������
euc-jp" �ʤ�) ����ꤷ�ޤ���
�ǥե���Ȥ� utf-8 �Ǥ���
-c �ǥե���Ȥ�ʸ��������
euc-jp", "utf-8" �ʤ�)
����ꤷ�ޤ���ʸ�������ɤμ�ưǧ����ǽ�Ϥ���ޤ���
�Х�
analyze.py �� extract.py ��)
�ѹ�����
�饤����