MYSQL5.5でSQLの差集合について教えてください。

Question

popattack

196

167もっと見る

100pt

コンピュータインターネット

MYSQL5.5でSQLの差集合について教えてください。

下記のサイトでLEFT OUTER JOINの左側だけいっときますは理解できます。
http://www.ideaxidea.com/archives/2011/01/sql_join_visually_explained.html

SELECT * FROM TableA
LEFT OUTER JOIN TableB
ON TableA.name = TableB.name

TABLE A
MIKE
JOHN
KEN

TABLE B
MIKE
JOHN

の場合、MIKE, JOHN, KENが抽出されるのはわかります。

問題は、TABLE A - TABLE Bがわかりません。

SELECT * FROM TableA
LEFT OUTER JOIN TableB
ON TableA.name = TableB.name
WHERE TableB.id IS null

「WHERE TableB.id IS null」なぜこの条件が共通部分だけ除くのかが理解できません。

わかりやすくお教え頂けないでしょうか？よろしくお願いします。

回答の条件

1人5回まで

登録：2011/07/04 19:32:34
終了：2011/07/11 19:35:06

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

No.1

Mook13143932011/07/05 00:25:20

50pt

参考のページでよく説明されていると思いますが、

Outer Left Join => TableA ですから、そこから TableB（ TableB.ID Is Null）

には無いものを選択したら、TableA だけになるということで理解できないでしょうか。

上の図で言えば一番上の行（TableB にない＝TableAだけにある）ものを

抽出しているのがご質問のクエリ文です。

実行時間に関しては、いろいろな要因があると思いますが、まずは Count で

該当件数を調べてみてはどうでしょうか。

結果が多すぎると、出力に時間がかかったり、失敗する例もあります。

処理速度を改善するためには、条件部分にインデックスを使用することで

改善が見込めます。

http://itpro.nikkeibp.co.jp/article/COLUMN/20060111/227105/

http://itpro.nikkeibp.co.jp/article/COLUMN/20060111/227105/?SS=imgview&FD=8179535&ST=develop

わかりやすい表まで作っていただきありがとうございます！！理解できました！ありがとうございます！

2011/07/09 10:51:54

popattack 2011/07/04 20:22:15

SELECT * FROM TableA
LEFT OUTER JOIN TableB
ON TableA.name = TableB.name
WHERE TableB.id IS null
を参考に１０万件のデータ(TABLE A)と１万件のデータ(TABLE B)を差集合として
出そうとしていますが、４時間たった今でも処理が終わりません・・・
差集合の結果を得るのには時間がかかるのでしょうか？

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

うぃんど · Accepted Answer · 2011-07-06T18:48:11+09:00

【考え方その１】SQL初心者向け

まずはWHERE条件が無い場合にどのような結果になるかを考えることです

SELECT *
FROM TableA
LEFT OUTER JOIN TableB ON TableA.name = TableB.name

表１

TableA.name	TableB.name	TableB.id
MIKE	MIKE	MIKEのID
JOHN	JOHN	JOHNのID
KEN

データベースでは何も無いという状態をNull（SQL中に書く場合はnullかNULLが一般的）と言いますので表を書き直すと下記になります

表２

TableA.name	TableB.name	TableB.id
MIKE	MIKE	MIKEのID
JOHN	JOHN	JOHNのID
KEN	null	null

表２の状態にWHERE条件を加えると…

SELECT *
FROM TableA
LEFT OUTER JOIN TableB ON TableA.name = TableB.name
WHERE TableB.id IS null

答えとしては下記のようにTableBのidが存在しない人だけが抽出されます

表３

TableA.name	TableB.name	TableB.id
KEN	null	null

【ワンポイント】

WHERE TableB.name IS nullではなくWHERE TableB.id IS nullなのは「TableBに同じnameがあった場合でもidに何も情報が入っていない（null）場合は未登録扱いにしたい（処理を分けたい）」といったような場面が想定されます

【考え方その２】中級以上向け

SQLがどのように解釈され、そして動いていくのかを学ぶとスキルは飛躍的に向上するのですが、結構難解なので、ひとまず簡略化してみました

処理される順番	SQL	意訳
1	FROM TableA	TableAをまずは見なさい
2	LEFT OUTER JOIN TableB ON TableA.name = TableB.name	TableAを見ながら、TableBを見て同じnameの人を選びだしなさい
3	WHERE TableB.id IS null	id未登録の人だけにしなさい
4	SELECT *	結果を表示しなさい

【ワンポイント】

TableBのnameにインデックスが無い状態では、TableAを1レコード処理するごとにTableBの1万レコードすべてと比較して同じnameの人を探すことになり、仮にTableBの１レコード目で見つかった場合でも、検索をそこでやめたりはせず、常に1万レコードすべてに目を通しますので、1万x10万という膨大な処理になります

TableBのnameでインデックス（見出し）があれば、見出しだけを見て存在するかどうかや、存在した場合にどこにデータがあるのかが即座に判るため、処理速度は飛躍的に向上します（最近のパソコンなら数秒、長くても数分で終わるはずです）

ちなみに、何でもかんでもインデックスをつければ高速化するというものではなく、今回のTableBのnameのように「有ると無しでは大違い」の場合にのみ付けるものと覚えておいてください

うぃんど · Accepted Answer · 2011-07-06T18:48:11+09:00

【考え方その１】SQL初心者向け

まずはWHERE条件が無い場合にどのような結果になるかを考えることです

SELECT *
FROM TableA
LEFT OUTER JOIN TableB ON TableA.name = TableB.name

表１

TableA.name	TableB.name	TableB.id
MIKE	MIKE	MIKEのID
JOHN	JOHN	JOHNのID
KEN

データベースでは何も無いという状態をNull（SQL中に書く場合はnullかNULLが一般的）と言いますので表を書き直すと下記になります

表２

TableA.name	TableB.name	TableB.id
MIKE	MIKE	MIKEのID
JOHN	JOHN	JOHNのID
KEN	null	null

表２の状態にWHERE条件を加えると…

SELECT *
FROM TableA
LEFT OUTER JOIN TableB ON TableA.name = TableB.name
WHERE TableB.id IS null

答えとしては下記のようにTableBのidが存在しない人だけが抽出されます

表３

TableA.name	TableB.name	TableB.id
KEN	null	null

【ワンポイント】

WHERE TableB.name IS nullではなくWHERE TableB.id IS nullなのは「TableBに同じnameがあった場合でもidに何も情報が入っていない（null）場合は未登録扱いにしたい（処理を分けたい）」といったような場面が想定されます

【考え方その２】中級以上向け

SQLがどのように解釈され、そして動いていくのかを学ぶとスキルは飛躍的に向上するのですが、結構難解なので、ひとまず簡略化してみました

処理される順番	SQL	意訳
1	FROM TableA	TableAをまずは見なさい
2	LEFT OUTER JOIN TableB ON TableA.name = TableB.name	TableAを見ながら、TableBを見て同じnameの人を選びだしなさい
3	WHERE TableB.id IS null	id未登録の人だけにしなさい
4	SELECT *	結果を表示しなさい

【ワンポイント】

TableBのnameにインデックスが無い状態では、TableAを1レコード処理するごとにTableBの1万レコードすべてと比較して同じnameの人を探すことになり、仮にTableBの１レコード目で見つかった場合でも、検索をそこでやめたりはせず、常に1万レコードすべてに目を通しますので、1万x10万という膨大な処理になります

TableBのnameでインデックス（見出し）があれば、見出しだけを見て存在するかどうかや、存在した場合にどこにデータがあるのかが即座に判るため、処理速度は飛躍的に向上します（最近のパソコンなら数秒、長くても数分で終わるはずです）

ちなみに、何でもかんでもインデックスをつければ高速化するというものではなく、今回のTableBのnameのように「有ると無しでは大違い」の場合にのみ付けるものと覚えておいてください

MYSQL5.5でSQLの差集合について教えてください。

ベストアンサー

うぃんど262511492011/07/06 18:48:11

その他の回答（1件）

Mook13143932011/07/05 00:25:20

うぃんど262511492011/07/06 18:48:11ここでベストアンサー

コメント（1件)

この質問への反応（ブックマークコメント）